شعار زيفيرنت

دورة مجانية في هندسة البيانات للمبتدئين – KDnuggets

التاريخ:

دورة هندسة البيانات المجانية للمبتدئين
الصورة عن طريق مجموعة القصص على Freepik
 

إنه وقت رائع لاقتحام هندسة البيانات. إذن، أين تبدأ؟ 

قد يكون تعلم هندسة البيانات أمرًا مرهقًا في بعض الأحيان بسبب عدد الأدوات التي تحتاج إلى معرفتها، ناهيك عن الأوصاف الوظيفية المرعبة للغاية! 

لذا، إذا كنت تبحث عن مقدمة مناسبة للمبتدئين لهندسة البيانات، فهذه مقدمة مجانية دورة هندسة البيانات للمبتدئينيعد هذا، الذي يدرسه جاستن تشاو، أحد المدافعين عن المطورين في Airbyte، مكانًا جيدًا للبدء.

ستتعلم في غضون ثلاث ساعات تقريبًا مهارات هندسة البيانات الأساسية: Docker وSQL وهندسة التحليلات والمزيد. لذا، إذا كنت ترغب في استكشاف هندسة البيانات ومعرفة ما إذا كانت مناسبة لك، فهذه الدورة التدريبية تعد مقدمة رائعة. الآن دعنا نتناول ما تغطيه الدورة.

رابط الدورة: دورة هندسة البيانات للمبتدئين

تبدأ هذه الدورة بمقدمة حول الأسباب التي تجعلك تفكر في أن تصبح مهندس بيانات في المقام الأول. وهو ما أعتقد أنه من المفيد جدًا فهمه قبل الغوص في المواضيع التقنية مباشرةً.

يتحدث المدرب جاستن تشاو عن: 

  • الحاجة إلى بيانات ذات نوعية جيدة وبنية تحتية للبيانات لضمان نجاح مشاريع البيانات الضخمة 
  • كيف يتزايد الطلب على أدوار هندسة البيانات وتدفع جيدًا 
  • قيمة العمل التي يمكنك إضافتها إلى المؤسسة التي تعمل كمهندس بيانات لتسهيل البنية التحتية لبيانات المؤسسة

عندما تتعلم هندسة البيانات، يعد Docker إحدى الأدوات الأولى التي يمكنك إضافتها إلى صندوق الأدوات الخاص بك. Docker هي أداة شائعة للحاويات تتيح لك حزم التطبيقات - مع التبعيات والتكوين - في قطعة أثرية واحدة تسمى الصورة. بهذه الطريقة، يتيح لك Docker إنشاء بيئة متسقة وقابلة للتكرار لتشغيل جميع تطبيقاتك داخل الحاوية.

تبدأ وحدة Docker في هذه الدورة بالأساسيات مثل:

  • ملفات Dockerfiles
  • صور عامل الميناء 
  • حاويات عامل الميناء 

يشرح المدرب بعد ذلك كيفية إنشاء حاوية لتطبيق باستخدام Docker: من خلال إنشاء ملف Dockerfile والأوامر اللازمة لإعداد الحاوية وتشغيلها. يغطي هذا القسم أيضًا وحدات التخزين الدائمة وأساسيات شبكات Docker واستخدام Docker-Compose لإدارة حاويات متعددة.

بشكل عام، تعد هذه الوحدة في حد ذاتها دورة تدريبية مكثفة جيدة على Docker إذا كنت جديدًا في مجال النقل بالحاويات!

في الوحدة التالية حول SQL، ستتعلم كيفية تشغيل Postgres في حاويات Docker ثم ستتعلم أساسيات SQL عن طريق إنشاء نموذج لقاعدة بيانات Postgres وتنفيذ العمليات التالية:

  • عمليات CRUD 
  • وظائف مجمعة 
  • باستخدام الأسماء المستعارة
  • ينضم 
  • الاتحاد والاتحاد جميعا 
  • الاستعلامات الفرعية

باستخدام أسس Docker وSQL، يمكنك الآن تعلم كيفية إنشاء مسار بيانات من البداية. ستبدأ ببناء مسار بسيط لتدريس اللغة الإنجليزية والذي ستتمكن من تحسينه طوال بقية الدورة. 

سترى أيضًا كيف تجتمع جميع مفاهيم SQL وشبكات Docker ومفاهيم إنشاء Docker التي تعلمتها حتى الآن معًا في بناء خط الأنابيب هذا الذي يقوم بتشغيل Postgres في Docker لكل من المصدر والوجهة.

تنتقل الدورة بعد ذلك إلى الجزء الهندسي التحليلي حيث ستتعرف على dbt (أداة بناء البيانات) لتنظيم استعلامات SQL الخاصة بك كنماذج مخصصة لتحويل البيانات. 

يساعدك المدرب على البدء باستخدام dbt: تثبيت المحول المطلوب وdbt-core وإعداد المشروع. تركز هذه الوحدة بشكل خاص على العمل مع نماذج dbt، ووحدات الماكرو، وjinjas. ستتعلم كيفية القيام بما يلي:

  • حدد نماذج dbt المخصصة وقم بتشغيلها أعلى البيانات الموجودة في قاعدة البيانات الوجهة
  • تنظيم استعلامات SQL كوحدات ماكرو dbt لإعادة الاستخدام 
  • استخدم dbt jinjas لإضافة بنيات التحكم إلى استعلامات SQL

لقد قمت حتى الآن ببناء مسار ELT يعمل عند التشغيل اليدوي. لكنك بالتأكيد تحتاج إلى بعض الأتمتة، وأبسط طريقة للقيام بذلك هي تحديد مهمة cron التي يتم تشغيلها تلقائيًا في وقت محدد من اليوم. 

لذلك يغطي هذا القسم القصير جدًا وظائف cron. لكن أدوات تنسيق البيانات مثل Airflow (والتي ستتعلمها في الوحدة التالية) تمنحك المزيد من التفاصيل عبر المسار. 

لتنسيق خطوط أنابيب البيانات، ستستخدم أدوات مفتوحة المصدر مثل Airflow وPerfect وDagster وما شابه. ستتعلم في هذا القسم كيفية استخدام أداة التنسيق مفتوحة المصدر Airflow.

يعد هذا القسم أكثر شمولاً مقارنة بالأقسام السابقة لأنه يغطي كل ما تحتاج إلى معرفته لتتمكن من كتابة Airflow DAGs للمشروع الحالي.

ستتعلم كيفية إعداد خادم الويب Airflow والمجدول لجدولة المهام. ثم ستتعرف على مشغلي Airflow: مشغلي Python وBash. أخيرًا، ستحدد المهام التي تدخل في DAGs للمثال الموجود.

في الوحدة الأخيرة، ستتعرف على Airbyte، وهي منصة مفتوحة المصدر لتكامل/نقل البيانات تتيح لك توصيل المزيد من مصادر البيانات والوجهات بسهولة.

ستتعلم كيفية إعداد بيئتك ومعرفة كيف يمكنك تبسيط عملية ELT باستخدام Airbyte. للقيام بذلك، عليك تعديل مكونات المشروع الحالي: البرنامج النصي ELT وDAGs لدمج Airbyte في سير العمل.

أتمنى أن تكون هذه المراجعة لدورة هندسة البيانات المجانية مفيدة. لقد استمتعت بالدورة - وخاصة النهج العملي لبناء خط البيانات وتحسينه تدريجيًا - بدلاً من التركيز على النظرية فقط. الرمز متاح أيضًا لتتمكن من متابعته. لذا، هندسة بيانات سعيدة!
 
 

بالا بريا سي مطور وكاتب تقني من الهند. تحب العمل في تقاطع الرياضيات والبرمجة وعلوم البيانات وإنشاء المحتوى. تشمل مجالات اهتمامها وخبرتها DevOps وعلوم البيانات ومعالجة اللغة الطبيعية. تستمتع بالقراءة والكتابة والترميز والقهوة! تعمل حاليًا على التعلم ومشاركة معرفتها مع مجتمع المطورين من خلال تأليف برامج تعليمية وأدلة إرشادية ومقالات رأي والمزيد.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة