شعار زيفيرنت

طريق التعلم لتصبح عالم بيانات

التاريخ:

طريق التعلم لتصبح عالم بيانات

أن تصبح عالم بيانات محترفًا قد لا يكون سهلاً مثل "1 ... 2 ... 3 ..." ، ولكن هذه الخطوات العشر يمكن أن تكون خارطة طريق التعلم الذاتي لبدء مستقبلك في مجال علم البيانات المثير والمتزايد باستمرار.


صورة للمؤلف (باستخدام Canva).

علم البيانات هو أحد المجالات سريعة النمو التي تتطلب أن يكبر عالم البيانات يوميًا ، ولا يمكنني رؤية هذا الطلب يتباطأ في أي وقت قريبًا. إنه مجال متعدد التخصصات يمكن أن يساعدنا في تحليل البيانات من حولنا لجعل حياتنا أفضل ومستقبلنا أكثر إشراقًا.

لحسن الحظ ، أن تصبح عالم بيانات لا يتطلب درجة علمية. طالما أنك منفتح على تعلم أشياء جديدة وعلى استعداد لبذل الجهد والوقت ، يمكنك أن تصبح عالم بيانات.

السؤال الآن هو من أين أبدا؟

"ربما تكون البداية أصعب من أي شيء آخر ، لكن كن حذرًا ، ستظهر الأمور على ما يرام."

فنسنت فان جوخ

الإنترنت مليء بالبرامج التعليمية حول جميع تفاصيل كل جانب من جوانب علم البيانات ، مثل أساسيات التعلم الآلي ، ومعالجة اللغة الطبيعية ، والتعرف على الكلام ، وكل أنواع السحر المذهل لعلوم البيانات.

لكن،

بالنسبة للمبتدئين ، يمكن أن يكون مقدار المعلومات هائلاً ويؤدي إلى استسلام شخص ما قبل أن يبدأ.

ما يمكن أن يساعد هو وجود خارطة طريق منظمة تحدد بوضوح ما تحتاج إلى تعلمه والترتيب الذي يجب أن تتعلمه لتصبح عالم بيانات.

في هذه المقالة ، سأضع خارطة طريق من 10 خطوات من البداية إلى النهاية للمفاهيم التي تحتاج إلى تغطيتها طوال رحلة تعلم علوم البيانات.

الخطوة №1: البرمجة

إذا كنت جديدًا في المجال التقني ، فستكون البرمجة أفضل مكان للبدء. حاليًا ، لغتا البرمجة الأكثر استخدامًا في علم البيانات هما Python و R.

  • R: لغة برمجة للحوسبة الإحصائية. R هو على نطاق واسع لتطوير البرمجيات الإحصائية وتحليل البيانات.
  • بايثون: لغة برمجة عالية المستوى للأغراض العامة. تستخدم بايثون على نطاق واسع في العديد من التطبيقات والمجالات ، من البرمجة البسيطة إلى الحوسبة الكمومية.

نظرًا لأن Python لغة برمجة صديقة للمبتدئين ، أجدها مكانًا رائعًا للبدء بعلوم البيانات وربما المزيد من المجالات في المستقبل. نظرًا لشعبية Python ، هناك العديد من الموارد المتاحة لتعلمها بشكل مستقل عن مجال تطبيق الهدف الخاص بك.

بعض مصادر تعلم Python المفضلة لدي هي كودكاديميفصول جوجلتعلم بايثون الطريق الصعب.

ومع ذلك ، إذا قررت الذهاب مع R ، كلاهما كورسيرا و  EDX لديك دورات رائعة يمكنك تدقيقها مجانًا.

قد يعرف بعضكم بالفعل كيفية البرمجة ويمكن نقلهم إلى علم البيانات من مجال تقني آخر. في هذه الحالة ، يمكنك تخطي هذه الخطوة والمضي قدمًا إلى الخطوة التالية من الرحلة.

الخطوة 2: قواعد البيانات

قلب علم البيانات هو البيانات. يمكنك التفكير في علم البيانات على أنه فن سرد قصة باستخدام البيانات.

عندما تعمل في مشروع علم البيانات ، ستحتاج إلى بيانات لتحليل مشروع صالح وتصوره وبناءه. غالبًا ما يتم تخزين هذه البيانات في بعض قواعد البيانات.

تتمثل إحدى الخطوات الأساسية للتميز كعالم بيانات في التفاعل والتواصل مع قواعد البيانات بشكل فعال. إذا كان بإمكانك تصميم قاعدة بيانات بسيطة ، فسيأخذك هذا إلى المستوى التالي.

للتواصل مع قاعدة البيانات ، ستحتاج إلى التحدث بلغتها. هذا هو SQL. SQL لتقف على لغة الاستعلام الهيكلية وتستخدم للتواصل مع قاعدة بيانات.

مواردي المفضلة لتعلم SQL هي كودكاديميأكاديمية خانوالتعلم التفاعلي ، SQLC.

الخطوة №3: الرياضيات

جوهر علم البيانات هو الرياضيات. لفهم كيفية عمل المفاهيم المختلفة لعلوم البيانات ، يجب أن يكون لديك فهم أساسي للرياضيات الكامنة وراءها.

أعلم أن الرياضيات هي أحد الأشياء التي يمكن أن تجعل بعض النسخ الاحتياطي من متابعة مهنة في علم البيانات.

لكن،

تحتاج إلى فهم أساسيات نظرية الاحتمالات والإحصاء والجبر الخطي لفهم علم البيانات. ومع ذلك ، فإن معظم الأدوات التي قد تستخدمها في حياتك المهنية ستقضي على تطبيق الرياضيات نفسها في مشاريعك.

لذلك ، عليك أن تفهم كيف يعمل وكيف ومتى تستخدمه.

لا تدع الرياضيات تخيفك من استكشاف عالم علم البيانات. أود أن أقول أنه يستحق ذلك. هناك بعض المواد المفيدة في كورسيرا يمكن أن تساعدك في معالجة الرياضيات التي تحتاجها.

الخطوة №4: التحكم في الإصدار

في تطوير البرمجيات وعلوم البيانات ، أحد أهم المفاهيم التي يجب إتقانها - أو محاولة إتقانها - هو التحكم في الإصدار.

عندما تعمل في مشروع علم البيانات ، ستحتاج إلى كتابة ملفات تعليمات برمجية مختلفة ، واستكشاف مجموعات البيانات ، والتعاون مع علماء بيانات آخرين. تتم الإدارة ، جميع التغييرات في الكود ، عن طريق التحكم في الإصدار ، أي باستخدام Git.

Git هو نظام للتحكم في الإصدار يستخدم لتتبع التغييرات في التعليمات البرمجية المصدر أثناء عملية تطوير البرامج. تم إنشاء Git لتنسيق العمل بين مجموعة من المبرمجين أو لاستخدامه لتتبع التغييرات في أي مجموعة من الملفات بواسطة مبرمج واحد.

على الرغم من أن Git عبارة عن نظام ، إلا أن بعض مواقع الويب تسمح لك باستخدام Git بسهولة دون الحاجة إلى التفاعل كثيرًا مع سطر الأوامر - ستنتقل في النهاية إلى سطر الأوامر ، على الرغم من ذلك - مثل GitHub جيثب: or GitLab.

لحسن الحظ ، هناك العديد من الموارد التي تساعدك على فهم الوظائف الداخلية لـ Git ؛ أفضل اختياراتي BitBucket Learn Git Tutorials و   محاضرة من دورة هارفارد CS50.

الخطوة №5: أساسيات علوم البيانات

علم البيانات مصطلح واسع النطاق ، حيث يشمل مفاهيم وتقنيات مختلفة. ولكن قبل أن تغوص عميقًا في البحر الكبير لعلوم البيانات ، عليك أن تتعرف على بعض الأساسيات أولاً.

هناك مهارات مهمة تحتاج إلى تطويرها والعمل عليها لتصبح عالم بيانات ناجحًا ، على سبيل المثال:

  1. البحث عن مجموعات البيانات: هناك طريقتان لبدء أي مشروع لعلوم البيانات: إما أن يكون لديك مجموعة بيانات تريد استخدامها لبناء مشروع ، أو لديك فكرة وتحتاج إلى العثور على مجموعة بيانات لها. يعد استكشاف مجموعات البيانات واختيار المجموعة المناسبة لمشروعك مهارة مهمة يجب الحصول عليها.
  2. التواصل العلمي: كعالم بيانات ، ستحتاج إلى التواصل مع الجمهور العام لتقديم عمليتك ونتائجك. لذلك ، سوف تحتاج إلى تطوير مهارات الاتصال العلمي وشرح المفاهيم المعقدة باستخدام مصطلحات بسيطة.
  3. التصور الفعال: الطريقة الوحيدة للتحقق من صحة نتائجك هي تصورها. يلعب التصور دورًا كبيرًا في علم البيانات ، من استكشاف بياناتك إلى تقديم نتائجك. يمكن أن يوفر لك التعرف على التصور الفعال للبيانات الكثير من الوقت والجهد أثناء مشروعك.

الخطوة 6: أساسيات تعلم الآلة

لذلك ، لقد عملت على مهارات البرمجة الخاصة بك ، وصقلت الرياضيات الخاصة بك ، وتعمق في قواعد البيانات. أنت الآن جاهز لبدء الجزء الممتع ، وتطبيق ما تعلمته حتى الآن لبناء مشاريعك الأولى.

أساسيات التعلم الآلي هي المكان المناسب للبدء. هنا عندما تبدأ في التعلم واستكشاف خوارزميات وتقنيات التعلم الآلي الأساسية ، مثل الانحدار الخطي واللوجستي ، وأشجار القرار ، و Naive Bayes ، وآلات ناقلات الدعم (SVM).

هنا حيث تبدأ أيضًا في اكتشاف حزم Python أو R المختلفة للتعامل مع بياناتك وتنفيذها. سوف تحصل على استخدام Scikit تعلمسكيبيو نمباي.

سوف تتعلم كيفية تنظيف بياناتك للحصول على مواقع ونتائج أكثر دقة. هذا هو الجزء الذي ستحصل فيه على تجربة ما يمكنك القيام به بعلوم البيانات وستكون قادرًا على رؤية تأثير المجال على حياتنا اليومية.

أفضل مكان لبدء التعرف على الجوانب المختلفة للتعلم الآلي هو المقالة المتنوعة حول علم البيانات.

الخطوة №7: السلاسل الزمنية والتحقق من صحة النموذج

حان الوقت للتعمق في التعلم الآلي. لن تكون بياناتك ثابتة ؛ غالبًا ما يكون مرتبطًا بالوقت بطريقة أو بأخرى. السلاسل الزمنية هي نقاط بيانات مرتبة حسب الوقت.

الأكثر شيوعًا ، أن السلاسل الزمنية هي سلاسل من البيانات المأخوذة في نقاط زمنية متعاقبة متساوية. مما يجعلها بيانات زمنية منفصلة. توضح لك السلاسل الزمنية كيف يغير الوقت بياناتك. يتيح لك ذلك اكتساب رؤى حول الاتجاهات ودورية البيانات والتنبؤ بسلوك البيانات في المستقبل.

عند التعامل مع السلاسل الزمنية ، سوف تحتاج إلى العمل على جزأين رئيسيين:

  1. تحليل بيانات السلاسل الزمنية.
  2. التنبؤ ببيانات السلاسل الزمنية.

بناء النماذج للتنبؤ بالسلوك المستقبلي ليس كافيًا. تحتاج إلى التحقق من صحة هذا النموذج. هنا حيث ستتعلم كيفية بناء النماذج واختبارها بكفاءة.

علاوة على ذلك ، ستتعلم كيفية تقدير عتبة الخطأ لكل مشروع وكيفية الاحتفاظ بنماذجك ضمن النطاقات المقبولة.

الخطوة №8: الشبكات العصبية

الشبكات العصبية (الشبكات العصبية الاصطناعية أو ANN) هي نموذج برمجة مستوحى من الناحية البيولوجية يمكّن الكمبيوتر من التعلم من بيانات المراقبة.

بدأت شبكات ANN كنهج لتقليد بنية الدماغ البشري لأداء مهام تعليمية مختلفة. لكي تشبه ANN الدماغ البشري ، فقد تم تصميمها لتحتوي على نفس المكونات الموجودة في الخلية البشرية.

لذلك ، يحتوي ANN على مجموعة من الخلايا العصبية ، يمثل كل منها عقدة متصلة بأخرى عبر الروابط. تتوافق هذه الروابط مع الاتصالات البيولوجية المحوار-المشبك-التغصنات. علاوة على ذلك ، كل من هذه الروابط لها وزن يحدد قوة عقدة ما على عقدة أخرى.

يمكّنك Learning ANN من معالجة مجموعة واسعة من المهام ، بما في ذلك التعرف على الكتابة اليدوية والتعرف على الأنماط والتعرف على الوجه.

تمثل ANN المنطق الأساسي الذي تحتاج إلى معرفته للمتابعة إلى الخطوة التالية في رحلة علم البيانات الخاصة بك ، التعلم العميق.

الخطوة 9: التعلم العميق

الشبكات العصبية هي نماذج تدعم التعلم العميق. يمثل التعلم العميق مجموعة قوية من التقنيات التي تسخر قوة التعلم للشبكات العصبية.

يمكنك استخدام الشبكات العصبية والتعلم العميق للتعامل مع أفضل الحلول للعديد من المشكلات في مختلف المجالات ، بما في ذلك التعرف على الصور والتعرف على الكلام ومعالجة اللغة الطبيعية.

الآن ، ستكون على دراية بالعديد من حزم Python التي تتعامل مع جوانب مختلفة من علم البيانات. في هذه الخطوة ، ستحصل على فرصة لتجربة الحزم الشائعة مثل Keras و  TensorFlow.

أيضًا ، من خلال هذه الخطوة ، ستتمكن من قراءة التطورات البحثية الحديثة في علم البيانات وربما تطوير أبحاثك الخاصة.

الخطوة №10: معالجة اللغة الطبيعية

أنت على وشك الانتهاء. يمكنك بالفعل رؤية علامة النهاية. لقد مررت بالعديد من المفاهيم النظرية والعملية حتى الآن ، من الرياضيات البسيطة إلى مفاهيم التعلم العميق المعقدة.

وبالتالي، ماذا بعد؟

المجال الفرعي المفضل لدي في علم البيانات هو معالجة اللغة الطبيعية (NLP). تعد معالجة اللغة الطبيعية فرعًا مثيرًا يتيح لك استخدام قوة التعلم الآلي "لتعليم" الكمبيوتر لفهم ومعالجة اللغات البشرية.

سيتضمن ذلك التعرف على الكلام وتطبيق تحويل النص إلى كلام (والعكس بالعكس) والمساعدة الافتراضية (مثل Siri و BERT) وجميع أنواع روبوتات المحادثة المختلفة.

صورة للمؤلف (باستخدام Canva).

وفي الختام

نحن هنا في "نهاية" الطريق. انتهي هنا بين الاقتباس ، لأنه تمامًا مثل أي مجال آخر متعلق بالتكنولوجيا ، لا نهاية له. يتطور هذا المجال بسرعة لأن الخوارزميات والتقنيات الجديدة قيد البحث وأنا أكتب هذه المقالة.

لذلك ، كونك عالم بيانات يعني أنك ستكون في مرحلة التعلم المستمر. سوف تطور معرفتك وأسلوبك كما تذهب. من المحتمل أن تشعر بالانجذاب إلى مجال فرعي معين أكثر من مجال آخر وتحفر بشكل أعمق وربما تتخصص في هذا المجال الفرعي.

أهم شيء يجب معرفته أثناء الشروع في هذه الرحلة هو أنه يمكنك القيام بذلك. يجب أن تكون منفتح الذهن وتكرس الوقت والجهد الكافيين لتحقيق أهدافك النهائية.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:


أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.

انقر هنا للوصول.

المصدر: https://www.kdnuggets.com/2021/07/learning-path-data-scientist.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة