شعار زيفيرنت

كيف قام مركز جورجيا لتحليلات البيانات ببناء حل تحليلات سحابية من البداية باستخدام AWS Data Lab

التاريخ:

هذه وظيفة ضيف كتبها كانتي تشالاساني ، مدير قسم في مركز تحليلات البيانات بجورجيا (GDAC). يقع GDAC داخل مكتب جورجيا للتخطيط والميزانية لتسهيل مشاركة البيانات المحكومة بين مختلف وكالات وإدارات الدولة.

أنشأ مكتب التخطيط والميزانية (OPB) مركز تحليلات بيانات جورجيا (GDAC) بقصد توفير المساءلة والشفافية في البيانات في جورجيا. تسعى GDAC جاهدة لدعم الوكالات الحكومية للولاية والمؤسسات الأكاديمية والباحثين ودافعي الضرائب باحتياجاتهم من البيانات. سيساعد مركز تحليلات البيانات الحديث في جورجيا على حصاد البيانات بشكل آمن ودمجها وإخفاء هويتها وتجميعها.

في هذا المنشور ، نشارك كيف أنشأت GDAC منصة تحليلات من البداية باستخدام خدمات AWS وكيف تعاون GDAC مع معمل بيانات AWS لتسريع هذا المشروع من التصميم إلى البناء في وقت قياسي. ساعدتنا جلسات التخطيط المسبق والانغماسات التقنية وجلسات ما قبل البناء وجلسات ما بعد البناء في التركيز على أهدافنا والإنجازات الملموسة. لقد أنشأنا نموذجًا أوليًا بهندسة بيانات حديثة واستوعبنا بيانات إضافية بسرعة في بحيرة البيانات ومستودع البيانات. سمحت لنا خدمات البيانات والتحليلات المصممة لغرض معين باستيعاب بيانات إضافية بسرعة وتقديم لوحات تحليلات البيانات. لقد كان إصدار موقع GDAC العام رسميًا أمرًا مجزًا للغاية في غضون 4 أشهر فقط.

لعبت مجموعة من التوجيهات الواضحة من أصحاب المصلحة التنفيذيين في OPB ، والمدخلات من فريق AWS المطلع والموجه ، واندفاع فريق GDAC والتزامه بالتعلم دورًا كبيرًا في قصة النجاح هذه. ساعدت الوكالات الشريكة لـ GDAC بشكل كبير من خلال تسليم البيانات في الوقت المناسب والتحقق من صحة البيانات ومراجعتها.

كان لدينا تفاعل من مستويين مع AWS Data Lab. في المستوى الأول ، شاركنا في Design Lab لمناقشة متطلباتنا على المدى القريب والبعيد وإنشاء بنية مناسبة. ناقشنا إيجابيات وسلبيات الخدمات المختلفة التي يمكن أن تساعدنا في تلبية تلك المتطلبات. كان لدينا أيضًا مشاركة هادفة مع خبراء موضوعات AWS من مختلف خدمات AWS للتعمق في أفضل الممارسات.

أعقب Design Lab من قبل Build Lab ، حيث أخذنا مقطعًا عرضيًا أصغر من الهندسة المعمارية الأكبر وقمنا بتنفيذ نموذج أولي في 4 أيام. خلال مختبر البناء ، عملنا في حسابات GDAC AWS ، باستخدام بيانات GDAC وموارد GDAC. لم يساعدنا ذلك في بناء النموذج الأولي فحسب ، بل ساعدنا أيضًا في اكتساب خبرة عملية في بنائه. ساعدتنا هذه التجربة أيضًا في الحفاظ على المنتج بشكل أفضل بعد بدء تشغيله. تمكنا من البناء باستمرار على هذه التجربة العملية ومشاركة المعرفة مع الوكالات الأخرى في جورجيا.

تم تفصيل تجارب معمل التصميم والبناء لدينا أدناه.

الخطوة 1: معمل التصميم

أردنا إنشاء نظام أساسي يمكنه تلبية احتياجات البيانات والتحليلات لمركز جورجيا لتحليل البيانات (GDAC) ومن المحتمل أن يكون بمثابة معيار ذهبي للوكالات الحكومية الأخرى في جورجيا. كان هدفنا من AWS Data Design Lab هو التوصل إلى بنية تلبي احتياجات البيانات الأولية وتوفر مجالًا واسعًا للتوسع في المستقبل ، مع زيادة قاعدة المستخدمين وحجم البيانات لدينا. أردنا أن يتوسع كل مكون من مكونات البنية بشكل مستقل ، مع تشديد الضوابط على الوصول إلى البيانات. كان هدفنا هو تمكين استكشاف البيانات بسهولة مع أوقات استجابة أسرع باستخدام تحليلات بيانات Tableau بالإضافة إلى بناء رأس مال بيانات لجورجيا. سيسمح لنا ذلك بتمكين صانعي السياسات لدينا من اتخاذ قرارات تستند إلى البيانات في الوقت المناسب والسماح لوكالات الدولة بمشاركة البيانات والتعريفات داخل الوكالات وعبرها من خلال إدارة البيانات. لقد أكدنا أيضًا على احتياجات أمان البيانات ، والتصنيف ، والتعتيم ، والتدقيق ، والمراقبة ، والتسجيل ، والامتثال. أردنا استخدام الأدوات المصممة لغرض معين والمخصصة للأهداف المتخصصة.

على مدار يومين من معمل التصميم ، حددنا بنيتنا الشاملة واخترنا نسخة مصغرة لاستكشافها. يوضح الرسم البياني التالي بنية النموذج الأولي الخاص بنا.

تحتوي العمارة على المكونات الرئيسية التالية:

  • خدمة تخزين أمازون البسيطة (Amazon S3) لهبوط البيانات الخام وتنظيم البيانات المرحلية.
  • غراء AWS لمهام الاستخراج والتحويل والتحميل (ETL) لنقل البيانات من منطقة هبوط Amazon S3 إلى المنطقة المنسقة Amazon S3 بالتنسيق والتخطيط الأمثل. استخدمنا متتبع ارتباطات AWS Glue لتحديث كتالوج بيانات AWS Glue.
  • وظائف خطوة AWS لتنسيق مهام AWS Glue.
  • أمازون أثينا كأداة قوية لتحليل بيانات SQL سريع وشامل وبناء طبقة منطقية على منطقة الهبوط.
  • الأمازون الأحمر لإنشاء مستودع بيانات متحد بأبعاد مطابقة ومخططات نجمية للاستهلاك بواسطة تحليلات بيانات Tableau.

الخطوة 2: مختبر ما قبل البناء

بدأنا بجلسات التخطيط لبناء المكونات التأسيسية لبنيتنا التحتية: حسابات AWS ، الأمازون الحوسبة المرنة السحابية (Amazon EC2) ، ومجموعة Amazon Redshift ، وسحابة خاصة افتراضية (VPC) ، وجداول مسارات ، ومجموعات أمان ، ومفاتيح تشفير ، وقواعد الوصول ، وبوابات الإنترنت ، ومضيف أساسي ، والمزيد. بالإضافة إلى ذلك ، أنشأنا إدارة الهوية والوصول AWS (IAM) الأدوار والسياسات واتصالات AWS Glue ونقاط نهاية المطورين والدفاتر. تم استيعاب الملفات عبر بروتوكول FTP آمن ، أو من قاعدة بيانات إلى Amazon S3 باستخدام واجهة سطر الأوامر AWS (AWS CLI). قمنا بالزحف إلى Amazon S3 عبر برامج الزحف AWS Glue لبناء مخططات وجداول كتالوج البيانات للوصول السريع إلى SQL في أثينا.

شارك فريق GDAC في أيام الغمر للتدريب في AWS Glue ، تكوين بحيرة AWS، و Amazon Redshift استعدادًا لـ Build Lab.

حددنا ما يلي على أنه معايير النجاح لمختبر البناء:

  • قم بإنشاء خطوط أنابيب ETL من المصدر (Amazon S3 Raw) إلى الهدف (Amazon Redshift). يجب أن تنشئ خطوط أنابيب ETL وتحميل الأبعاد والحقائق في Amazon Redshift.
  • لديك آلية لاختبار دقة البيانات المحملة عبر خطوط الأنابيب لدينا.
  • قم بإعداد Amazon Redshift في شبكة فرعية خاصة من VPC ، مع تحديد المستخدمين والأدوار المناسبة.
  • اتصل من AWS Glue إلى Amazon S3 بـ Amazon Redshift دون المرور عبر الإنترنت.
  • قم بإعداد تصفية على مستوى الصف في Amazon Redshift بناءً على تسجيل دخول المستخدم.
  • تنسيق خطوط أنابيب البيانات باستخدام وظائف الخطوة.
  • قم ببناء ونشر تحليلات Tableau مع اتصالات بمخطط النجوم لدينا في Amazon Redshift.
  • أتمتة النشر باستخدام تكوين سحابة AWS.
  • قم بإعداد أمان على مستوى العمود للبيانات في Amazon S3 باستخدام Lake Formation. يسمح هذا بالوصول التفاضلي إلى البيانات بناءً على أدوار المستخدمين للمستخدمين الذين يستخدمون كل من Athena و طيف الأمازون للانزياح الأحمر.

الخطوة 3: معمل البناء لمدة أربعة أيام

بعد سلسلة من جلسات التنفيذ مع المهندس المعماري لدينا ، قمنا بتشكيل بحيرة بيانات GDAC ونظمنا عمليات سحب البيانات النهائية لمستودع البيانات مع الوصول المحكوم إلى البيانات. تم استيعاب البيانات في بحيرة هبوط البيانات الخام ثم تم تنسيقها في بحيرة التدريج ، حيث تم ضغط البيانات وتقسيمها بتنسيق باركيه.

لقد كان من المفيد لنا بناء وظائف PySpark Extract Transform Loads (ETL) AWS Glue مع مهندس مختبر بيانات AWS الدقيق لدينا. لقد أنشأنا وظائف لصق قابلة لإعادة الاستخدام لاستيعاب البيانات وتنظيمها باستخدام مقتطفات التعليمات البرمجية المتوفرة. كانت الأيام قاسية وطويلة ، لكننا شعرنا بسعادة غامرة لرؤية مستودع البيانات المركزي الخاص بنا يتحقق بسرعة كبيرة. أثبتت فهرسة البيانات واستخدام استعلامات أثينا أنها طريقة سريعة وفعالة من حيث التكلفة لاستكشاف البيانات ومناقشة البيانات.

سمح لنا التنسيق بدون خادم مع وظائف الخطوة بوضع وظائف AWS Glue في سير عمل بيانات بسيط يمكن قراءته. لقد أمضينا وقتًا في التصميم للأداء وتقسيم البيانات لتقليل التكلفة وزيادة الكفاءة.

تم إعداد الوصول إلى قاعدة البيانات من Tableau و SQL Workbench / J لفريقي. ازدادت حماستنا فقط عندما بدأنا في بناء تحليلات البيانات ولوحات المعلومات باستخدام نماذج بيانات الأبعاد الخاصة بنا.

الخطوة 4: مختبر ما بعد البناء

خلال جلسة ما بعد Build Lab ، أغلقنا العديد من النهايات غير الثابتة وقمنا ببناء وظائف AWS Glue إضافية للأحمال الأولية والتاريخية وإستراتيجيات الإلحاق مقابل استراتيجيات الكتابة الفوقية. تم اختيار هذه الاستراتيجيات بناءً على طبيعة البيانات في جداول مختلفة. عدنا لمختبر البناء الثاني للعمل على بناء مهام ترحيل البيانات من Oracle Database عبر التناظر VPC ، معالجة الملفات باستخدام AWS Glue Data Brew، و AWS CloudFormation لإنشاء وظائف AWS Glue تلقائيًا. إذا كان لديك فريق مكون من 4-8 بنائين يبحثون عن أساس سريع وسهل لنظام كامل لتحليل البيانات ، فإنني أوصي بشدة باستخدام AWS Data Lab.

وفي الختام

بشكل عام ، مع فريق صغير جدًا ، تمكنا من إعداد إطار عمل مستدام على البنية التحتية لـ AWS مع توسيع مرن للتعامل مع السعة المستقبلية دون المساس بالجودة. مع وجود إطار العمل هذا ، نتحرك بسرعة مع موجزات البيانات الجديدة. لم يكن هذا ممكنًا بدون مساعدة فريق AWS Data Lab طوال دورة حياة المشروع. مع هذا الفوز السريع ، قررنا المضي قدمًا والبناء برج التحكم في AWS مع حسابات متعددة في منطقة الهبوط الخاصة بنا. جلبنا محترفين للمساعدة في إنشاء حواجز حماية البنية التحتية والبيانات وسياسات الأمان. يسعدنا التحسين المستمر للبنية التحتية السحابية والخدمات وعمليات هندسة البيانات. مهد هذا الأساس الأولي القوي الطريق لمشاريع البيانات التي لا نهاية لها في جورجيا.


عن المؤلف

كانتي تشالاساني يعمل كمدير قسم لمركز جورجيا لتحليل البيانات (GDAC) في مكتب التخطيط والميزانية (OPB). كانتي مسؤول عن أنشطة إدارة البيانات والتحليلات والأمان والامتثال والحوكمة الخاصة بـ GDAC. تسعى جاهدة للعمل مع وكالات الدولة لتحسين مشاركة البيانات ومحو الأمية البيانات وجودة البيانات من خلال هذه المنصة الحديثة لهندسة البيانات. مع أكثر من 26 عامًا من الخبرة في إدارة تكنولوجيا المعلومات ، وتخزين البيانات العملي ، والخبرة التحليلية ، تزدهر من أجل التميز.

فيشال باتاك هو مهندس حلول معمل البيانات في AWS. تعمل Vishal مع العملاء في حالات الاستخدام الخاصة بهم ، وحلول المهندسين المعماريين لحل مشاكل أعمالهم ، وتساعدهم في بناء نماذج أولية قابلة للتطوير. قبل رحلته مع AWS ، ساعد Vishal العملاء في تنفيذ مشاريع BI وتخزين البيانات وبحيرات البيانات في الولايات المتحدة وأستراليا.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة