شعار زيفيرنت

الحقيقة الوحشية حول علم البيانات

التاريخ:

الحقيقة الوحشية حول علم البيانات

تتعامل العديد من المؤسسات مع علم البيانات كما لو كان أداة تسويقية - إعادة تسمية الأشياء التي يقومون بها بالفعل كـ "علم بيانات" لأنه يتضمن استخدام البيانات. هذا ليس علم بيانات حقيقيًا ، ويفتقد تمامًا الهدف من الانخراط في علم البيانات.


By براد ابادراشتا، كبير علماء البيانات

مدونة صورة

يبدو أن معظم علماء البيانات والمنظمات التي توظفهم لا يفهمون كيفية عمل علم البيانات بالفعل ، ولا ما هو بالضبط. لقد قفزوا نوعًا ما في العربة - دون فهم ذلك حقًا ، ولا لماذا كان مهمًا بالنسبة لهم بطريقة عميقة للغاية.

تتعامل العديد من المؤسسات مع علم البيانات كما لو كان أداة تسويقية - إعادة تسمية الأشياء التي يقومون بها بالفعل كـ "علم بيانات" لأنه يتضمن استخدام البيانات. هذا ليس علم بيانات حقيقيًا ، ويفتقد تمامًا الهدف من الانخراط في علم البيانات. سيكون الأمر معادلاً لمقارنة الأطفال الذين يلعبون في صناديق الرمل الخاصة بهم بعمليات شركات النفط الكبرى عندما يبحثون عن النفط. القيمة الأساسية لعلم البيانات ، والتي يبدو أنه تم التغاضي عنها ، هي كلمة علم.

العلم ليس مجرد تنبؤي - فهو في جوهره توضيحي وكذلك تشخيصي. يؤدي العلم إلى الهندسة - وهو نهج رياضي منهجي لإنشاء حلول تقنية قائمة على استغلال بعض الظواهر الطبيعية.

الفوز بمسابقات Kaggle ليس علم بيانات ؛ على الرغم من أنها بداية معقولة ، أفترض - على الرغم من أن أفضل النماذج في Kaggle تم بناؤها بالفعل بواسطة آلات تعمل بالخوارزميات الجينية ، حيث يقود الانتقاء الطبيعي النتيجة. على الرغم من كل قيودها ، فإن Kaggle هي بالتأكيد ساحة تدريب جيدة لتبليل القدمين.

يدور علم البيانات حول فهم العملية التوليدية الأساسية ، أو الآلية ، التي تؤدي إلى البيانات التي تلاحظها. يتعلق الأمر باستغلال تلك المعرفة لاشتقاق جيوب قيمة ذات دلالة إحصائية ، لدفع التغيير التشغيلي إلى مؤسسة ، مما يؤدي إلى إنشاء عائد استثمار قابل للقياس. يتعلق الأمر بقيادة عملية صنع القرار بشكل منهجي ، بطريقة قابلة للتكرار وقابلة للتطوير والتكرار.

عندما يمكنك ترجمة الشعوذة التجارية إلى تدفق إيرادات مصمم هندسيًا - وهذا هو الوقت الذي يمكنك فيه الادعاء بأنك قمت بعمل علم بيانات حقيقي - فهذا يعني أنك تفهم بشكل أساسي كيف يعمل عملك على مستوى دقيق للغاية.

نعم ، "80٪ + من مهمة عالم البيانات هي التنظيف" لأنه كثيرًا ما يتكرر - ولكن هذا ليس مجرد عمل منخفض المستوى بلا تفكير - يتطلب التنظيف بذكاء فهم الحل أثناء تحسين الحل بشكل متكرر من خلال إيلاء اهتمام خاص لـ: + ما هو مهم و + سبب أهميته و + كيفية أهميته. يجب حذف كلمة تنظيف لصالح كلمة curation.

إذا كنت لا تفهم نهاية اللعبة ، فستفشل حتماً في بدء التشغيل من خط البداية - ثم تتساءل لماذا لا ترى أي نتائج لكل العمل الذي قمت به. أنت تقوم بإنشاء مجموعة بيانات منظمة جيدًا يتوافق مع معيار معين للجودة لضمان أن نموذجك يعكس الحقيقة البسيطة التي تحاول الكشف عنها و / أو التقاطها و / أو تكرارها. يتطلب هذا بعض الحدس حول ما تقوم بنمذجة وبنيتها المعقدة بطبيعتها ، وربما الطبقات. مجرد تركيب المنحنى والادعاء بأن "لديك نموذج" هو بالكاد رهانات مائدة ، وبالتأكيد لا يقدم أي ميزة تنافسية مستدامة على منافسيك. السؤال الحقيقي هو ما إذا كنت تفهم علم عملك.

عليك أن تعرف متى تتخلص من الطفل بماء الحمام. هناك خط رفيع بين هندسة الميزات وتنقية البيانات - ربما تقوم فقط بتنظيف أهم الأشياء التي تخبرك بما يحدث بالفعل! لذا ، لا ، من غير المرجح أن يحصل أي خريج جديد عشوائي على هذا الأمر بالشكل الصحيح - فالأمر ليس بهذه البساطة. إنه يخبرنا في الواقع أن العديد من علماء البيانات الذين قابلتهم لا يفهمون أن تطهير البيانات هو أيضًا نمذجة بمعنى حقيقي للغاية - لأنه لتحديد الضوضاء ، يجب أن يكون لديك نموذج للإشارة! هناك سبب وراء استمرار الشركات في دفع مبالغ كبيرة مقابل مجموعة المواهب البالغة 0.1٪.

لقراءة الجزء التالي من المدونة ، انقر هنا.

 
السيرة الذاتية: براد ابادراشتا هو أحد كبار المسؤولين التنفيذيين في مجال التحليلات وممارس في علم البيانات يتمتع بخبرة كبيرة وله سجل حافل من قيادة الفكر والاستراتيجية والابتكار في مجال الذكاء الاصطناعي على نطاق المؤسسة. مجالات تركيزه هي الذكاء الاصطناعي ، والتعلم الآلي / العميق ، و Blockchain ، و IIoT / IoT ، والصناعة 4.0.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:


أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.kdnuggets.com/2021/07/brutal-truth-data-science.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟