מביצות נתונים למכרות זהב
3 דקות קריאה

אמ;לק
ארכיטקטורת המדליון (Medalion Architecture) היא Framework לארגון נתונים בתוך Data Lake, המחלקת את המידע לשלוש שכבות לוגיות: Bronze (נתונים גולמיים), Silver (נתונים מנוקים ומנורמלים), Gold (נתונים עסקיים מוכנים לצריכה). היא פותרת את בעיית הנוקשות של ה-ETL הקלאסי ומאפשרת סקלאביליות, אמינות ויכולת ״מסע בזמן״ שחיונית למודלי ML ו-AI.
רקע: מות ה-ETL הקלאסי
במשך עשורים, ארגונים היו כבולים למודל ה-ETL (Extract, Transform, Load) המסורתי. בעולם הישן, הנתונים עברו תהליכי ניקוי ועיצוב קפדניים עוד לפני שנגעו בדיסק. אולי זה עבד למידע מובנה ואיטי, אבל בעולם של Big Data וזרימת נתונים בזמן אמת, הגישה הזו יצרה צווארי בקבוק ו-Silos של מידע בודד. התוצאה הייתה לעיתים קרובות ״ביצות נתונים״ (Data Swamps) שבהן גילוי מידע הוא בלתי אפשרי. ארכיטקטורת המדליון היא האבולוציה האלגנטית שמאפשרת לנו להפוך את ה-Data Estate ממחסן סטטי למנוע צמיחה מהיר.
איך זה עובד: מבנה השכבות

שכבת ה-Bronze: פוליסת הביטוח שלכם
זוהי שכבת ה-Landing הראשונה. הנתונים מגיעים לכאן בפורמט המקורי שלהם (Raw data), ללא שינוי.
העיקרון: Single Source of Truth. שומרים את המידע בנאמנות מלאה למקור (Full Fidelity), ללא לוגיקה עסקית.
טיפ טכני: כדי למנוע כשלים ב-Ingestion עקב Schema Drift (שינויים במבנה המקור), הפרקטיקה המומלצת היא לשמור שדות ב-Bronze כ-
Binary,VARIANTאוStringהערך: אם תגלו באג בלוגיקת הטרנספורמציה בעוד חצי שנה, שכבת ה-Bronze מאפשרת לכם להשתמש ב-”Time Travel” (פיצ׳ר ליבה של Delta Lake) ולבצע Reprocessing מלא עם דיוק היסטורי מושלם.
שכבת ה-Silver: כאן המדע קורה
זוהי שכבת ה-Integrity. בשלב זה אנחנו עוברים מנתונים גולמיים לנתונים מאומתים. כאן מתבצעת הסרת כפילויות, אכיפת סכמה ו-Type Casting.
מגרש המשחקים של ה-Data Science: זהו המקום האידאלי לאימון מודלים. הנתונים בשכבה זו נשמרים ברמת גרנולריות גבוהה (Non-aggregated), מה שמאפשר למדעני תנונים למצוא את הסיגנל מבלי להזריק רעש מיותר למודל.
אופטימיזציה: בשכבה זו נטמיע טכניקות מתקדמות כמו Z-Ordering או Liquid Clustering כדי להבטיח ביצועי שאילתות מהירים (Low Latency).
שכבת ה-Gold: מנוע קבלת החלטות
השכבה העסקית (Consumer-Facing). כאן הנתונים עוברים אגרגציה ומודלינג (למשל במבנה Star Schema או Kimball) כדי שיהיו מוכנים לצריכה מיידית על ידי כלים כמו Power BI, או סוכני AI.
- Semantic Backbone: הערך האסטרטגי הגדול ביותר של שכבת ה-Gold הוא היכולת שלה לשמש כבסיס סמנטי. היא מאפשרת למשל ל-LLM לענות על שאלות עסקיות מורכבות (״מה החשיפה שלנו למלאי חסר ברבעון האחרון?״) בדיוק של אנליסט אנושי, תוך צמצום של הסיכון להזיות.
ניתוח: Silver vs. Gold
כדי לחדד את ההבדלים המהותיים בין השכבות ריכזתי עבורכם טבלה השוואתית:
| Gold (מוכנות עסקית) | Silver (מוכנות טכנית) | מאפיין |
| לוגיקה עסקית, מדדים ו-KPI | ולידציה, נורמליזציה | פוקוס |
| Data Marts או Star Schemas | Delta Valut או 3rd Normal Form | מודל נתונים |
| Executives, Decision Makers & AI Agents | Data Engineers & ML Engineers | קהל יעד |
סיכום: העתיד הוא שכבות
המעבר לארכיטקטורת מדליון היא אינה מותרות - הוא הכרח אסטרטגי. בעולם שבו איכות ה-AI נגזרת ישירות מאיכות הנתונים שמזינים אותו, המבנה הזה מבטיח שההשקעה הטכנולוגית שלכם תתורגם לערך עסקי מדיד.
