شعار زيفيرنت

البنية التحتية لمشروع علوم البيانات: كيفية إنشائها

التاريخ:

البنية التحتية لمشروع علوم البيانات: كيفية إنشائها

الهدف من معظم مشاريع علوم البيانات هو بناء شيء يستخدمه الناس. يتطلب إنشاء شيء هادف بنية تحتية قوية وعمليات تحافظ على حل المشكلات في الصدارة بالنسبة لجمهورك.


By نيت روزيدي، عالم بيانات ومدير منتج.

نقطة البداية الرئيسية لأي مشروع في علم البيانات هي العمل أو أي مشكلة أخرى في الحياة الواقعية. هذا هو الشيء الوحيد الأكثر أهمية الذي يجب أن تضعه في اعتبارك عندما تقرر كيف يجب أن يبدو مشروع علم البيانات الخاص بك.

إنه نفس الشيء عندما تقوم بإنشاء البنية التحتية لعلوم البيانات لمشروعك. أنت تبني مشروعك وبنيته التحتية ليستخدمه الآخرون. لهذا السبب ، لن أخوض كثيرًا في التفاصيل الفنية حول البنية التحتية. ما سأقدمه لك هنا هو التوصيات التي يجب أن تضعها في اعتبارك إذا كنت ترغب في إنشاء مشروع علم بيانات هادف. يتضمن ذلك أيضًا بعض الاقتراحات التقنية ، بالطبع.

سيؤدي اتباع هذه التوصيات إلى إبقاء حل المشكلات في مركز مشروعك كما ينبغي. سوف يساعدونك أيضًا في بناء مشروع علم بيانات واحد فقط ستحتاجه لعرض مهاراتك.

أربع خطوات للبنية التحتية لمشروع علوم البيانات الصلبة

إن بناء بنية تحتية قوية لعلوم البيانات ليس بالأمر السهل ، خاصة إذا لم تكن خبيرًا جدًا. ولكن للبقاء في الجانب الآمن ، استخدم قائمة التحقق هذه للتأكد من أنك على مسار جيد:

  • احصل على بيانات حقيقية باستخدام واجهات برمجة التطبيقات وغيرها من التقنيات
  • استخدم قواعد البيانات (السحابية) لتخزين البيانات
  • بناء نموذج
  • انشر نموذجك

باتباع هذه الخطوات ، ستتبع بشكل عام ما يسمى بإطار عمل OSEMN. إنه إطار عمل يحدد كيفية العملية التي يجب أن يمر بها مشروع علم البيانات الخاص بك:

المصدر: نحو علم البيانات

الآن سأخوض في التفاصيل وأشرح كل نقطة.

احصل على بيانات حقيقية باستخدام واجهات برمجة التطبيقات والتقنيات الأخرى

أنت تحاول حل مشاكل حقيقية في مشروعك ، أليس كذلك؟ من الطبيعي أن تفعل ذلك باستخدام بيانات حقيقية. بذلك ، أعني البيانات التي ينتجها المستخدمون ، البيانات التي يتم تحديثها في الوقت الفعلي ، مثل تدفق البيانات. إذا استخدمت مثل هذه البيانات ، يصبح مشروعك أقل نظرية. أنت تعمل باستخدام البيانات ذات الصلة اليوم ، والتي تحتاج إلى تحديث مستمر ، والتي تختبر أيضًا مهاراتك في التعامل مع مثل هذه البيانات. هذا هو المكان الذي يكمن فيه التحدي ، ليس في التدرب على بعض مجموعة البيانات التاريخية على الرغم من أن ذلك له غرضه الخاص أيضًا.

السؤال الرئيسي هو أين وكيف تحصل على البيانات الحقيقية. يمكنك الحصول عليه باستخدام واجهات برمجة التطبيقات. للحصول على البيانات الحقيقية التي تحتاجها ، يجب أن تعرف كيفية استخدام واجهات برمجة التطبيقات وتكوينها وإعدادها. هناك طريقة بسيطة لمساعدتك على تصور ماهية واجهات برمجة التطبيقات وما تفعله:

المصدر: ALTEXSOFT

بعض واجهات برمجة التطبيقات الشائعة هي:

سيسمح لك استخدام هذه التقنيات بالحصول على بيانات تشمل:

  • تحديثات في الوقت الحقيقي
  • البيانات والطوابع الزمنية لكل سجل
  • تحديد المواقع الجغرافية
  • أرقام وبيانات نصية

تعد معرفة كيفية استخدام واجهات برمجة التطبيقات واحدة من المهارات الموصى بها بشدة في صناعة علوم البيانات. بادئ ذي بدء ، بناء نموذج للتعلم الآلي ببيانات ثابتة لا معنى له. لهذا السبب سيتعين عليك (على الأرجح) معرفة كيفية استخدام واجهات برمجة التطبيقات. سوف يسمحون لك بأتمتة تحديثات البيانات. إذا كنت تستخدم واجهات برمجة التطبيقات ، فيمكنك تجنب إنشاء طبقة تكامل لأن واجهات برمجة التطبيقات هي أيضًا منصة للتواصل بين الأنظمة المختلفة. إذا كنت تتقن واجهات برمجة التطبيقات ، فستتمكن أيضًا من نشر النموذج الخاص بك لاحقًا ، وحتى إنشاء التطبيق (التطبيقات) التي ستستخدم هذه البيانات الفعلية.

هذه مقالة Springboard يشرح بشكل جيد ما هي واجهات برمجة التطبيقات وأي منها موصى به لعالم البيانات. مع كل توصية ، هناك أيضًا روابط لوثائق API والبرامج التعليمية وبعض الموارد عبر الإنترنت للتدرب على واجهات برمجة التطبيقات.

عند استخدام واجهات برمجة التطبيقات ، ستحتاج أيضًا إلى استخدام تقنيات أخرى مثل:

  • المكتبات التي تساعدك على إجراء مكالمات API
  • هياكل البيانات مثل JSON والقواميس لجمع البيانات وحفظها من API

بمجرد الحصول على البيانات ، تحتاج إلى تخزينها في مكان ما ، أليس كذلك؟ هذه خطوة أخرى مهمة في بناء البنية التحتية.

استخدم قواعد البيانات السحابية لتخزين البيانات

نظرًا لأنك تعمل باستخدام البيانات في الوقت الفعلي ، فمن المستحسن أن تقوم بتخزين البيانات. بخلاف ذلك ، سيتعين عليك سحب جميع البيانات باستمرار من واجهات برمجة التطبيقات ، بما في ذلك البيانات التي لديك بالفعل والبيانات الجديدة التي ظهرت في هذه الأثناء.

عند استخدام قواعد البيانات لتخزين بياناتك ، سيكون عليك فقط سحب البيانات الجديدة وتنظيفها وإلحاقها بالبيانات النظيفة الموجودة بالفعل في قاعدة البيانات الخاصة بك. واحدة من أكثر قواعد البيانات السحابية شيوعًا هي:

ولكن لماذا يجب أن تستخدم قواعد البيانات السحابية على وجه التحديد؟ لنفترض أنك تعمل بمفردك وتريد إنشاء مشروع جاد نسبيًا على قدر كبير من البيانات الآنية المحدثة تلقائيًا. في هذه الحالة ، ستتيح لك قواعد البيانات السحابية الحصول على طريقة رخيصة نسبيًا لتخزين مثل هذه البيانات بسعة تخزين لا نهاية لها تقريبًا. على سبيل المثال ، توفر Amazon Web Services و Google Cloud أيضًا إمكانية تشغيل خوارزميات التعلم الآلي. هذا ليس شيئًا يمكنك القيام به إذا استخدمت تخزين البيانات الداخلي. ولا داعي للقلق أيضًا بشأن النسخ الاحتياطية وتوافر البيانات.

إذا كنت تعمل لدى شركة ما ، خاصةً إذا كانت شركة أكبر تنتج كميات هائلة من البيانات ، فمن المحتمل أن تكون طليقًا في (أو على الأقل ترغب في التعلم) في الحوسبة السحابية. تنتقل الشركات إلى قواعد البيانات السحابية للسبب الدقيق الذي يجعلك تفعل ذلك أيضًا. حتى إذا كنت لا تعمل في مكان ما كعالم بيانات حتى الآن ، فهذا لا يعني أنك لا تستطيع ذلك. تفقد هذا دليل حول كيفية الحصول على وظيفة في علم البيانات؛ أنا متأكد من أنها ستحصل على ما تريد.

هناك مقال رائع على Pupuweb يجب أن تقرأها إذا كنت تريد التعرف على الخصائص الأساسية لقواعد البيانات السحابية ومقدميها ومزاياها وعيوبها ، حتى تتمكن من تحديد الخيار الأفضل لك.

إذا كنت لا ترغب في تعلم قواعد البيانات السحابية بنفسك ، فربما يكون من الجيد تجربة دورة تدريبية عبر الإنترنت. أظن دورة كورسيرا هذه يمكن أن تكون نقطة انطلاق جيدة. إنها دورة جامعة ديوك ، وهي مجانية. إذا أخذت الدورة التدريبية ، فستعمل مع Amazon Web Services ، Azureو Google Cloud Platform.

بناء نموذج

بمجرد أن يكون لديك أول عنصرين من عناصر البنية التحتية ، فقد حان الوقت لبناء نموذج. عند بناء نموذج الانحدار أو التعلم الآلي ، عليك ، مرة أخرى ، أن تضع في اعتبارك أن النموذج يجب أن يحل مشكلة واقعية. لبناء مثل هذا النموذج ، يجب أن تسأل نفسك الأسئلة التالية:

  • ما الذي أحاول تحقيقه بهذا النموذج؟ لماذا اخترت هذا بدلاً من بعض النماذج الأخرى؟
  • كيف أنظف البيانات ، ولماذا بهذه الطريقة؟
  • ما اختبارات التحقق التي سأجريها على البيانات لجعلها مناسبة للنموذج؟
  • ما هي افتراضات النموذج ، وكيف سأحققها؟
  • كيف يمكنني تحسين النموذج؟ ما هي قرارات المقايضة التي يجب أن أتخذها؟
  • كيف يمكنني تنفيذ الاختبارات / الضوابط؟
  • ما هي الرياضيات الأساسية في النموذج ، وكيف يعمل؟

التجربة هي الأداة الرئيسية التي تجعلك تطرح أسئلة جيدة. ومع ذلك ، لاكتساب الخبرة ، تحتاج إلى بناء بعض النماذج. ولإنشاءها ، ستحتاج إلى المزيد من الأدوات التقنية لمساعدتك في ذلك. الفئات الرئيسية لأدوات بناء نماذج التعلم الآلي هي:

  1. مجموعات أدوات تعلم الآلة
  2. منصات التعلم الآلي
  3. حلول التحليلات
  4. دفاتر علوم البيانات
  5. التعلم الآلي عبر السحابة الأصلية كخدمة (MLaaS)

كبداية ، أوصي بهذا مقالة فوربس للتعرف على ما تقدمه كل فئة.

إذا كانت لديك معرفة ببرمجة Python والرياضيات والإحصاءات ، جنبًا إلى جنب مع بعض أساسيات التعلم الآلي ، فبإمكان بعض الدورات التدريبية تعزيز مهاراتك في بناء النموذج. على سبيل المثال ، هناك دورة Udacity مجانية المقدمة من AT&T ، مع التركيز بدقة على الأسئلة الأساسية لبناء نموذج جيد.

غالبًا ما يُنظر إلى أن الوظيفة الوحيدة لعالم البيانات هي بناء نموذج. على الرغم من أن هذا ليس صحيحًا تمامًا ، إلا أنه مهم للغاية. لذلك لا أعتقد أنني بحاجة إلى التأكيد على سبب وجوب أن تكون جيدًا في بناء النماذج.

على الرغم من أن بناء نموذج قد يبدو أنه آخر جزء من أحجية البنية التحتية لديك ، إلا أنه ليس كذلك.

يجب أن تتبع خطوة أخيرة. الخطوة التي ستضمن أن النموذج الذي أنشأته يخدم غرضه حقًا. وهي حل مشكلة من واقع الحياة.

انشر النموذج الخاص بك

هذا جزء مهم جدًا من بناء البنية التحتية لأي من مشاريع علوم البيانات الخاصة بك. هذه الخطوة الأخيرة تختبر نموذجك والغرض منه حقًا. ويمكنك القيام بذلك من خلال السماح للآخرين بأن يصبحوا جزءًا من مشروعك. اسمح لهم باستخدام نموذجك والأفكار التي ينتجها.

ضع في اعتبارك أن وظيفتك هي مساعدة الآخرين عن طريق تحويل البيانات إلى رؤى ورؤى إلى توصيات. كيف تصل للآخرين؟ من الناحية المثالية ، تقوم بنشر نموذجك. يمكنك القيام بذلك باستخدام إطار عمل تطبيق مثل جانغو or قارورة. أو يمكنك القيام بذلك باستخدام موفري السحابة مثل Amazon Web Services أو Google Cloud.

يمكنك تقديم أفكارك في شكل لوحة تحكم بسيطة يمكن للمستخدمين اللعب بها. أو ربما تكون واجهة برمجة تطبيقات يمكن للمستخدمين الاتصال بها والحصول على رؤيتك وتوصياتك.

لماذا يعد نشر نموذج خطوة مهمة ومهارة يجب أن تتقنها؟ سيؤدي في بعض الأحيان إلى تغييرات جذرية في عملية الأعمال. بمجرد إجراء المهام يدويًا ، سيتم تولي المهام بواسطة الحلول القائمة على الخوارزمية. فقط من خلال النشر ، سيخدم نموذجك غرضه المتمثل في حل مشكلة واقعية. سيعرض نشر النموذج جانبًا أوسع من مهاراتك كعالم بيانات: ليس فقط مهاراتك التقنية ولكن فهم الأعمال وعملياتها نفسها.

مرة أخرى ، هذا شيء تكسبه من خلال التجربة. إذا كنت تفتقر إلى الخبرة ، فمن الحكمة دائمًا تعويضها قليلاً بمعرفتك التقنية. لذلك إذا كنت قد تعلمت بالفعل كيفية استخدام واجهات برمجة التطبيقات والخدمات السحابية لاسترداد البيانات وتخزينها لنموذجك ، فيمكنك أيضًا استخدامها لنشر نموذج.

إذا كنت تريد حقًا إضافة أطر عمل للتطبيق إلى مهاراتك ، فلا يسعني إلا أن أشجعك. هناك الكثير من الاثنين قارورة و جانغو الكتب والبرامج التعليمية والمصادر التي يمكن أن تساعدك في إتقان هذه الأدوات.

إذا كنت تفتقر إلى أفكار مشاريع علوم البيانات ، فإليك اقتراحًا لـ ثمانية مشاريع يمكنك تجربتها. ما عليك سوى اتباع هذه الإرشادات الأربعة من هذه المقالة ، ويجب أن تكون على ما يرام.

نبذة عامة

النقاط الرئيسية التي يجب أخذها إلى المنزل لإنشاء بنية أساسية لعلوم البيانات عند إنشاء مشروع هي:

  • ضع في اعتبارك دائمًا أن وظيفتك ليست (فقط) لبناء نموذج ولكن لحل مشكلة واقعية.
  • يجب أن تكون البنية التحتية لمشروعك موجهة لمساعدتك في حل مشكلة ما.
  • يجب أن تكون المكونات الأربعة الرئيسية للبنية التحتية لمشروعك:
  • API لبيانات الإدخال
  • (سحابة) قاعدة البيانات
  • الموديل
  • API للحصول على رؤى

وبإنشاء البنية التحتية لعلوم البيانات بهذه الطريقة ، ستتأكد من إحداث تأثير في مشروعك.

أصلي. تم إعادة النشر بإذن.

السيرة الذاتية: نيت روزيدي هو عالم بيانات ومدير منتج.

هذا الموضوع ذو علاقة بـ:


أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.kdnuggets.com/2021/08/data-science-project-infrastructure.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة