شعار زيفيرنت

7 خطوات لإتقان هندسة البيانات – KDnuggets

التاريخ:

7 خطوات لإتقان هندسة البيانات
صورة المؤلف
 

تشير هندسة البيانات إلى عملية إنشاء وصيانة الهياكل والأنظمة التي تقوم بجمع البيانات وتخزينها وتحويلها إلى تنسيق يمكن تحليله واستخدامه بسهولة من قبل علماء البيانات والمحللين وأصحاب المصلحة التجاريين. سترشدك خريطة الطريق هذه إلى إتقان العديد من المفاهيم والأدوات، مما يتيح لك إنشاء أنواع مختلفة من خطوط البيانات وتنفيذها بشكل فعال.

تتيح عملية الحاويات للمطورين تجميع تطبيقاتهم وتبعياتهم في حاويات خفيفة الوزن ومحمولة يمكن تشغيلها باستمرار عبر بيئات مختلفة. من ناحية أخرى، فإن البنية التحتية كتعليمات برمجية هي ممارسة إدارة البنية التحتية وتوفيرها من خلال التعليمات البرمجية، مما يمكّن المطورين من تحديد البنية التحتية السحابية وإصدارها وأتمتتها.

في الخطوة الأولى، سيتم تعريفك بأساسيات بناء جملة SQL وحاويات Docker وقاعدة بيانات Postgres. سوف تتعلم كيفية بدء خادم قاعدة بيانات باستخدام Docker محليًا، بالإضافة إلى كيفية إنشاء خط أنابيب بيانات في Docker. علاوة على ذلك، سوف تقوم بتطوير فهم Google Cloud Provider (GCP) وTerraform. سيكون Terraform مفيدًا لك بشكل خاص في نشر الأدوات وقواعد البيانات والأطر على السحابة.

يقوم تنسيق سير العمل بإدارة وأتمتة تدفق البيانات من خلال مراحل المعالجة المختلفة، مثل استيعاب البيانات، والتنظيف، والتحويل، والتحليل. إنها طريقة أكثر كفاءة وموثوقية وقابلة للتطوير للقيام بالأشياء.

في الخطوة الثانية، ستتعرف على أدوات تنسيق البيانات مثل Airflow أو Mage أو Prefect. جميعها مفتوحة المصدر وتأتي مع ميزات أساسية متعددة لمراقبة تدفق البيانات وإدارته ونشره وتنفيذه. سوف تتعلم كيفية إعداد Prefect باستخدام Docker وإنشاء خط أنابيب ETL باستخدام Postgres وGoogle Cloud Storage (GCS) وBigQuery APIs. 

افحص 5 بدائل تدفق الهواء لتنسيق البيانات واختر ما يناسبك بشكل أفضل.

تخزين البيانات هو عملية جمع وتخزين وإدارة كميات كبيرة من البيانات من مصادر مختلفة في مستودع مركزي، مما يسهل تحليل واستخراج رؤى قيمة.

في الخطوة الثالثة، ستتعلم كل شيء عن مستودع بيانات Postgres (المحلي) أو BigQuery (السحابي). سوف تتعرف على مفاهيم التقسيم والتجميع، وتتعمق في أفضل ممارسات BigQuery. يوفر BigQuery أيضًا تكاملًا للتعلم الآلي حيث يمكنك تدريب النماذج على البيانات الكبيرة وضبط المعلمات الفائقة والمعالجة المسبقة للميزات ونشر النموذج. إنه مثل SQL للتعلم الآلي.

هندسة التحليلات هي مجال متخصص يركز على تصميم وتطوير وصيانة نماذج البيانات وخطوط الأنابيب التحليلية لفرق ذكاء الأعمال وعلوم البيانات. 

في الخطوة الرابعة، ستتعلم كيفية إنشاء مسار تحليلي باستخدام dbt (أداة بناء البيانات) مع مستودع بيانات موجود، مثل BigQuery أو PostgreSQL. سوف تكتسب فهمًا للمفاهيم الأساسية مثل ETL وELT، بالإضافة إلى نمذجة البيانات. سوف تتعلم أيضًا ميزات dbt المتقدمة مثل النماذج الإضافية والعلامات والخطافات واللقطات. 

في النهاية، سوف تتعلم كيفية استخدام أدوات التصور مثل Google Data Studio وMetabase لإنشاء لوحات معلومات تفاعلية وتقارير تحليل البيانات.

المعالجة المجمعة هي تقنية هندسة بيانات تتضمن معالجة كميات كبيرة من البيانات على دفعات (كل دقيقة أو ساعة أو حتى أيام)، بدلاً من معالجة البيانات في الوقت الفعلي أو في الوقت الفعلي تقريبًا. 

في الخطوة الخامسة من رحلتك التعليمية، سيتم تعريفك بالمعالجة المجمعة باستخدام Apache Spark. سوف تتعلم كيفية تثبيته على أنظمة تشغيل مختلفة، والعمل مع Spark SQL وDataFrames، وإعداد البيانات، وتنفيذ عمليات SQL، وفهم الأجزاء الداخلية لـ Spark. في نهاية هذه الخطوة، ستتعلم أيضًا كيفية بدء تشغيل مثيلات Spark في السحابة ودمجها مع مستودع البيانات BigQuery.

يشير التدفق إلى جمع البيانات ومعالجتها وتحليلها في الوقت الفعلي أو في الوقت الفعلي تقريبًا. على عكس المعالجة المجمعة التقليدية، حيث يتم جمع البيانات ومعالجتها على فترات زمنية منتظمة، تسمح معالجة البيانات المتدفقة بالتحليل المستمر لأحدث المعلومات.

في الخطوة السادسة، ستتعرف على تدفق البيانات باستخدام Apache Kafka. ابدأ بالأساسيات ثم انغمس في التكامل مع Confluent Cloud والتطبيقات العملية التي تشمل المنتجين والمستهلكين. بالإضافة إلى ذلك، ستحتاج إلى التعرف على عمليات الانضمام إلى الدفق والاختبار والنوافذ واستخدام Kafka ksqldb & Connect. 

إذا كنت ترغب في استكشاف أدوات مختلفة لعمليات هندسة البيانات المختلفة، يمكنك الرجوع إلى 14 أداة أساسية لهندسة البيانات لاستخدامها في عام 2024.

في الخطوة الأخيرة، ستستخدم جميع المفاهيم والأدوات التي تعلمتها في الخطوات السابقة لإنشاء مشروع هندسة بيانات شامل وشامل. وسيتضمن ذلك إنشاء مسار لمعالجة البيانات، وتخزين البيانات في بحيرة البيانات، وإنشاء مسار لنقل البيانات المعالجة من بحيرة البيانات إلى مستودع البيانات، وتحويل البيانات في مستودع البيانات، وإعدادها للوحة المعلومات . وأخيرًا، ستقوم بإنشاء لوحة معلومات تعرض البيانات بشكل مرئي.

جميع الخطوات المذكورة في هذا الدليل يمكن العثور عليها في هندسة البيانات ZoomCamp. يتكون ZoomCamp من وحدات متعددة، تحتوي كل منها على برامج تعليمية ومقاطع فيديو وأسئلة ومشاريع لمساعدتك على التعلم وبناء خطوط أنابيب البيانات. 

في خريطة طريق هندسة البيانات هذه، تعلمنا الخطوات المختلفة المطلوبة لتعلم وبناء وتنفيذ خطوط أنابيب البيانات لمعالجة البيانات وتحليلها ونمذجتها. لقد تعلمنا أيضًا عن كل من التطبيقات والأدوات السحابية بالإضافة إلى الأدوات المحلية. يمكنك اختيار إنشاء كل شيء محليًا أو استخدام السحابة لسهولة الاستخدام. أوصي باستخدام السحابة لأن معظم الشركات تفضلها وتريد منك اكتساب الخبرة في الأنظمة الأساسية السحابية مثل GCP.
 
 

عابد علي عوان (@ 1abidaliawan) هو عالم بيانات محترف ومعتمد يحب بناء نماذج التعلم الآلي. يركز حاليًا على إنشاء المحتوى وكتابة المدونات التقنية حول تقنيات التعلم الآلي وعلوم البيانات. يحمل عابد درجة الماجستير في إدارة التكنولوجيا ودرجة البكالوريوس في هندسة الاتصالات. وتتمثل رؤيته في بناء منتج للذكاء الاصطناعي باستخدام شبكة عصبية بيانية للطلاب الذين يعانون من مرض عقلي.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة