شعار زيفيرنت

لماذا لا تزال البيانات التركيبية تواجه مشكلة في جودة البيانات

التاريخ:

وفقًا لـ Gartner ، تفشل 85 ٪ من مشاريع علوم البيانات (ومن المتوقع أن تفعل ذلك إلى 2022). أظن أن معدلات الفشل أعلى من ذلك ، حيث تحاول المزيد والمزيد من المؤسسات اليوم الاستفادة من قوة البيانات لتحسين خدماتها أو إنشاء مصادر دخل جديدة. يستمر عدم وجود البيانات "الصحيحة" في منع الشركات من اتخاذ أفضل الخيارات. لكن بيانات الإنتاج الحية هي أيضًا مسؤولية ضخمة ، لأنها تتطلب حوكمة تنظيمية. ومن ثم ، تتجه العديد من المؤسسات الآن نحو استخدام البيانات التركيبية - المعروفة أيضًا باسم البيانات المزيفة - لتدريب ملفات آلة التعلم .

تحل البيانات التركيبية العديد من المشكلات: فهي لا تتطلب الامتثال لوائح البيانات، يمكن استخدامه في بيئات الاختبار ، وهو متاح بسهولة. ومع ذلك ، فإن الاعتماد على البيانات التركيبية التي تم إنشاؤها بشكل سيئ يعني أيضًا وجود خطر من أن النموذج يمكن أن يفشل في اللحظة التي يتم إنتاجه فيها.

تدريب مباشر عبر الإنترنت: دورة أساسيات إدارة البيانات

انضم إلينا في ورشة العمل المتعمقة هذه التي تستغرق أربعة أيام حول DMBoK وإعداد CDMP ومفاهيم البيانات الأساسية.

دعنا نستكشف هذا بالتفصيل.

هل تؤدي جودة البيانات الرديئة إلى عيب تنافسي؟

المنظمات التي لديها بيانات أساسية جيدة تربح في لعبة التحليلات. من الواضح أن الاستثمار مقدمًا في تحسين البيانات عالية الجودة والحفاظ عليها يؤتي ثماره في المستقبل.

تم تقدير أن علماء البيانات ينفقون ما يقرب من نصف وقتهم لا تحل مشاكل العمل بل تطهير وتحميل البيانات. يخبرنا الحساب البسيط أننا إما نطلب ضعف الموهبة أو نحل نصف مشاكل العمل المخصصة.

بالإضافة إلى أوجه القصور في الموارد ، فإن البيانات ذات الجودة الرديئة مسؤولة أيضًا عن قدر كبير من تسرب الإيرادات ، وانعدام الثقة عبر المؤسسة ، وتأخر استراتيجيات "الدخول إلى السوق" ، ونقص اتخاذ القرار القائم على البيانات ، مما يؤدي إلى لتآكل الثقة مع العملاء والمنظمين. لذلك ، من الواضح أن جودة البيانات الرديئة تسبب ضررًا تنافسيًا.

كيفية تقييد المسؤولية عن البيانات الحقيقية باستخدام البيانات التركيبية

كما ذكرنا سابقًا ، تعد بيانات الإنتاج الحية مسؤولية كبيرة. تحتاج المنظمات إلى ممارسة تقليل البيانات في مبادراتها التحليلية وعلوم البيانات. هذا ليس فقط لإبقاء المنظمين سعداء ولكنه يتماشى أيضًا مع الممارسة الأخلاقية المتمثلة في "العمل الصحيح من قبل العميل".

تتطلب نماذج التعلم الآلي قدرًا كبيرًا من البيانات القابلة للاستخدام للتدريب بفعالية. غالبًا ما تحتاج هذه البيانات إلى إثراء لضمان تغطية جميع القواعد. على سبيل المثال ، إذا كانت البيانات جيدة بما يكفي فقط للسيناريو (أ) ، وكان السيناريو (ب) ممكنًا أيضًا ، ولكن لا توجد بيانات كافية له ، فسيتم استكمال البيانات ببيانات تركيبية إضافية.

إذا كانت البيانات تركيبية ، فهذا يعني:

  • لا يلزم أن تكون متوافقة مع اللوائح العامة لحماية البيانات (GDPR) واللوائح الأخرى
  • يمكن صنعه بكثرة لمجموعة متنوعة من الظروف والسائقين
  • يمكن إنشاء البيانات لشروط لم تتم مواجهتها
  • يمكن أن تكون البيانات مفهرسة بشكل جيد
  • يعتبر إنشاء البيانات فعّال للغاية من حيث التكلفة

لماذا يعد إصلاح جودة البيانات هو الإجابة الصحيحة

الآن بعد أن فهمنا أن البيانات ذات الجودة الرديئة تسبب ضررًا تنافسيًا وأن البيانات التركيبية تحل العديد من المشكلات ، فلنتزوج من الاثنين.

كيف تنشئ بيانات تركيبية؟

قد يكون الحل المبسط هو تحليل بيانات الإنتاج وتكرار خصائصها الإحصائية ، ولكن سيكون النهج الأكثر واقعية هو إنشاء نموذج للتعلم الآلي لتكرار خصائص بيانات الحياة الواقعية والمعلمات والقيود. هذا نهج أكثر تعقيدًا ، وهناك الكثير طرق مفتوحة المصدر من القيام بذلك.

إذا لم تقم البيانات التركيبية بتكرار جودة البيانات الرديئة لبيانات الحياة الواقعية ، فهناك احتمال كبير أن يفشل نموذج التعلم الآلي هذا عند الإنتاج. الطريقة الوحيدة لحل هذه المشكلة هي ضمان إجراء فحوصات قوية لجودة البيانات على بيانات الحياة الواقعية.

ستساعد فحوصات الاكتمال والدقة والتفرد في حل العديد من مشكلات جودة البيانات. ستؤدي تسوية البيانات عبر خطوط الأنابيب إلى حل المزيد من المشكلات.

يعد العثور على مشكلات جودة البيانات ومعالجتها أمرًا ضروريًا قبل الاعتماد على البيانات التركيبية لحل مشاكل العمل.

وفي الختام

محاكاة البيانات الاصطناعية مفهوم ممتاز ؛ ومع ذلك ، لا ينبغي أن يكون مخطئًا في حل جميع مشكلات البيانات التي نواجهها يوميًا في علوم البيانات.

إن تغطية المشكلة عن طريق إنشاء بيانات جديدة لن يؤدي إلى اختفاء المشكلة الأصلية. الاستثمار في جودة البيانات سيؤتي ثماره ، وهو أمر يستحق التنفيذ.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة