שלטון ברמת התכונות באמצעות טבלאות Apache Iceberg

ארגונים גדולים שבהם מספר המשתמשים המגיעים לנתונים חיוניים גבוה מתמודדים עם הרבה אתגרים בניהול גישה דקה.

מגוון שירותי AWS כמוIAM, Lake Formation ו-S3 ACL יכולים לסייע בשליטה בגישה דקה. אך ישנן תרחישים בהם יש לגשת לישות יחידה המכילה את הנתונים הגלובליים על ידי קבוצות משתמשים מרובות במערכת עם גישה מוגבלת. בנוסף, ארגונים עם נוכחות גלובלית עשויים לפעול בסביבות שונות ועם כלים שונים, כך שתנועת הנתונים ואיסוף קטלוגים מתקיימים בצורה מאוד מעייפה.

לדוגמה, משתמש רוצה לגשת לנתוני מכירות מטבלה לצורך ניתוח, אך עליו להיות מוגבל לגישה רק לנתוני מכירות הקשורים לאזור אוסטרליה. אף נתון אחר לא צריך להיות גלוי לו. כמו כן, הוא רוצה לגשת לנתונים מפלטפורמת ענן שונה לצורך פעולות DML מרובות, ולכן עליו להביא את הנתונים ולהמירם לפורמט הנייטיבי של הכלי לעיבוד, וזה גורם לעיכובים.

לתרחיש כזה, אנו צריכים שליטה בנתונים ברמת המאפיין ובנתונים בין סביבות כדי לתמוך בפורמטי כלים הנייטיביים ובגישה מהירה יותר.

קחנו צעד קדימה כדי לטפל באתגרים אלו ולספק פתרון שינוי מענן המשתמש ב־Lake Formation לממשק מידע בטבלת Apache Iceberg, שניתן לשאילתות ולקטלוג ב־AWS S3 בעצמו וניתן לגישה במהלך פלטפורמות ועננים שונים.

בשימוש באפשרות סינון המידע ב־Lake Formation, אנו יכולים לוודא אבטחה ברמת עמודה, ברמת שורה וברמת תא.

מהו פורמט טבלת Iceberg?

 Iceberg הוא פורמט טבלה קוד פתוח עם היתרונות הבאים:

  • Iceberg תומך באופציות גמישות של SQL, מה שהופך אפשרי לעדכן, למזג ולמחוק מידע. Iceberg יכול לשמש לכתיבת מחדש של קבצי מידע כדי לשפר את ביצועי הקריאה ולהשתמש ב־delete deltas כדי להאיץ את קצב העדכונים.
  • Iceberg תומך באבולוציה מלאה של סכימה. עדכוני סכימה בטבלאות Iceberg משנים רק את המטא-נתונים, משאירים את קבצי המידע בלתי משתנים. שינויים באבולוציה של סכימה כוללים הוספה, הסרה, שינוי שמות, שינוי סדר והעלאת סוג.
  • מידע שמאוחסן באגם מידע או בארכיטקטורת משתפת מידע זמין ליישומים עצמאיים מרובים בארגון באופן סימולטני.
  • Iceberg מיועד לשימוש עם סטים נתונים אנליטיים עצומים. הוא מציע מספר תכונות שמיועדות להעלאת מהירות ויעילות שאילתות, כולל תכנון סריקה מהיר, חיתוך של קבצי מטה-נתונים שאינם נדרשים, ואפשרות לסנן קבצי נתונים שאינם מכילים נתונים תואמים.

סקירת הפתרון

הפתרון שהצענו הוא שימוש בשירות Lake Formation ליצירת מסנני נתונים שבאפשרותנו להעניק הרשאות למשתמש לגישה. לב הפתרון הוא שימוש בפורמט טבלת Iceberg, שמקטלוג ואז מתווסף עם תנאי מסנן לשליטה בגישה.

זרימת הנתונים

  1. DMS או Glue משמשים לשימוש במערכות מאגרי הנתונים המקוריות כדי לאחסן אותם בדלת S3 מיועדת.
  2. הארכיטקטורה המבוססת על אירועים מופעלת באירוע כאשר S3 דוחף לקרוא לפונקצית Lambda המתאימה כדי להתחיל בתהליך ETL.
  3. הנתונים יאוחסנו בפורמט טבלת Iceberg ויקטלוגו.
  4. ניתן לעבד ולהמיר את הנתונים באמצעות Glue, תוך השקעה במודלים מוכנים לשימוש של GenAI.
  5. הנתונים המעובדים יאוחסנו ב-Redshift לצרכים צריכה.
  6. לטבלאות Iceberg שנקטלוגו יתווספו עם עמודת תג (ערך התג ממופה לקבוצת המשתמש).

התמונה למטה מתארת מסנן נתונים דוגמתי ואיך הוא נראה. ניתן גם להגביל את מספר העמודות באמצעות מסנני הנתונים.

פעם שהמסנן נוצר, ניתן להשתמש באפשרות ההענקת הרשאה כדי להעניק הרשאות למשתמשים, תפקידים, קבוצות וחשבונות. המשתמש יכול להשתמש ב-Athena כדי לבצע שאילתות על הנתונים.

היכולות השונות של הפתרון שלנו הן:

  • יכולת לנהל באופן יעיל את השליטה המדויקת בגישה לנתונים.
  • יכולת לשלב מחדש את מסנני הנתונים עבור קבוצות משתמשים מרובות.
  • אנו יכולים להשיג אבטחת עמודה, אבטחת שורה ואבטחת תא.
  • שימוש יעיל בתכונות פורמט טבלת Apache Iceberg לשליטה בלתי נראית על הנתונים וגישתם.
  • יעילות ויעילות בהכנת הנתונים.
  • ניהול גישה מרכזי ושלטון בשימוש ב- lake formation.
  • פחות התערבות ידנית בפתרון משולב לחלוטין.
  • ספק סיום-סוף של נתונים באמצעות פתרון אגנוסטי ענן ורכיבים בלתי-שרתיים לספק קידמה ויעילות כלכלית.

יתרונות

  • יעילות תפעולית. שימוש ברכיבי בלתי-שרתיים מפחית את העלויות התפעוליות והתחזוקה הכלולות בניהולו.
  • אופטימיזציה של מאמץ. הפחתת מאמץ של עד 20-30% באמצעות שימוש בדגמים GenAI ליצירת סקריפטי ETL תקניים ויעילים.
  • יתרונות של שלטון והתאמה לתקנים. שליטה על בסיס תכונות ב- lake formation עוזרת לעמוד בתקנים התקניים ולספק יכולות לביצוע בדיקת עקיבה ולוגרים.

שימוש תעשייתי

ממשלת רמת מאפיינים באמצעות טבלת Apache Iceberg יכולה להתבצע בצורה חלקה מאוד במגזר הפיננסי, כמו בנק או חברת ביטוח, שבהם ללקוחות יש צורך בגישה מוגבלת לנתונים, מה שמבטיח את האותנטיות והביטחון של הנתונים. מגזר הבריאות יכול להשתמש בזה כדי ליצור ולשתף את תיק הבריאות האלקטרוני של המטופל במהירות, תוך שמירה על רגישות הנתונים, מה שיכול להוביל לטיפול ותרופות בזמן.

סיכום

לכן, הפתרון הכולל יספק ממשלת רמת מאפיינים בקנה מידה עם הכנת נתונים בצורה מהירה באמצעות פורמט טבלת Apache Iceberg הנחוץ לרוב הארגונים ויישום הפתרון תוך ניצול שירותי ענן של אמזון, אשר מציע את היתרון של ניצחונות מהירים, עלות אופטימלית ויכולת סקלאביליות בלתי מוגבלת.

Source:
https://dzone.com/articles/attribute-level-governance-apache-iceberg-tables