شعار زيفيرنت

10 تحديات رئيسية لاستخراج البيانات في البرمجة اللغوية العصبية وحلولها

التاريخ:

حتى مع نمو قدرتنا على استخراج المعلومات الحيوية من البيانات الضخمة ، لا يزال المجتمع العلمي يواجه حواجز تطرح تحديات كبيرة في التنقيب عن البيانات. في هذه المقالة ، سنناقش 10 قضايا رئيسية نواجهها في التنقيب عن البيانات الحديثة وحلولها الممكنة.

1. البيانات غير المتجانسة

يمكن أن تكون البيانات منخفضة الجودة ومغشوشة وغير كاملة. لهذا السبب ، بصرف النظر عن تعقيد جمع البيانات من مختلف مستودعات البيانات، تعد أنواع البيانات غير المتجانسة (HDT) أحد التحديات الرئيسية لاستخراج البيانات. ويرجع ذلك في الغالب إلى أن البيانات الضخمة تأتي من مصادر مختلفة ، وقد يتم تجميعها تلقائيًا أو يدويًا ، ويمكن أن تخضع للعديد من المعالجات.

تعرف على أساسيات هندسة البيانات

توفر هندسة البيانات أساس كل إستراتيجية بيانات ناجحة - اكتشف الأساسيات من خلال برنامج التدريب عبر الإنترنت.

يؤدي هذا غالبًا إلى زيادة التكرار ودرجات البيانات المزورة. يمكن أن يكون أحد الأمثلة الشائعة جدًا هو استبيان العملاء ، حيث لا يجوز للأشخاص إرسال معلومات معينة أو إرسالها بشكل غير صحيح مثل العمر أو تاريخ الميلاد أو عناوين البريد الإلكتروني.

حل: هناك جانبان لحل هذه المشكلة. أولاً ، نتبع النهج التقليدي ونعالج كل HDT على حدة وفقًا لعملية استخراج البيانات المتجانسة الكلاسيكية ثم نجمع النتائج معًا. بدلاً من ذلك ، نقوم بدمج HDT خلال مرحلة ما قبل المعالجة ثم نجري عملية استخراج البيانات ، ونتعامل معها ككيان واحد. هذا بالطبع أبسط من الخيار الأول. 

ثانيًا ، نتعامل مع الحل من زاوية الأعمال أيضًا ، حيث تضمن فرق التسويق والتطوير جمع البيانات الدقيقة قدر الإمكان. على سبيل المثال ، يجب على الشركات التأكد من أن أسئلة الاستطلاع أكثر تمثيلاً للهدف ، وأن نقاط إدخال البيانات ، كما هو الحال في البيع بالتجزئة ، لديها طريقة للتحقق من صحة البيانات ، مثل عناوين البريد الإلكتروني. بهذه الطريقة عندما تحليل المشاعر من خلال التنقيب عن المشاعر ، سيؤدي ذلك إلى نتائج أكثر دقة. 

2. بيانات مبعثرة

يعد جمع البيانات من الأنظمة الأساسية عبر العديد من بيئات الحوسبة أحد أبرز تحديات التنقيب عن البيانات. لا يمكن تخزين كميات وفيرة من البيانات على خادم واحد ، ولهذا السبب يتم تخزين البيانات على الخوادم المحلية. هذا هو الحال مع معظم المنظمات واسعة النطاق. في الواقع ، إنه شيء واجهناه بأنفسنا أثناء البحث عن البيانات لمقدم رعاية صحية دولي لتحليل المشاعر. 

قد تعني البيانات المتناثرة أيضًا أن البيانات مخزنة في مصادر مختلفة مثل أداة CRM أو ملف محلي على جهاز كمبيوتر شخصي. غالبًا ما يظهر هذا الموقف عندما ترغب إحدى المؤسسات في تحليل البيانات من مصادر متعددة مثل Hubspot وملف .csv وقاعدة بيانات Oracle. تبحث الشركات أيضًا عن طرق غير تقليدية لسد الفجوات التي قد لا تسدها بياناتها الداخلية من خلال جمع البيانات من مصادر خارجية.

حل: نحتاج إلى إنشاء إصدارات موزعة من خوارزميات استخراج البيانات حتى لا نضطر إلى إحضار جميع البيانات إلى مستودع مركزي واحد كما نفعل الآن. نحتاج أيضًا إلى البروتوكولات واللغات الصحيحة لرسم خريطة لهذه البيانات المبعثرة. في الوقت الحالي ، يمكن تحقيق ذلك إلى حد ما بمساعدة البيانات الوصفية

يمكن للمرء استخدام ملفات XML لتخزين البيانات الوصفية في التمثيل بحيث يمكن استخراج قواعد البيانات غير المتجانسة. يمكن أن تساعد لغة الترميز التنبؤية (PMML) في تبادل النماذج بين مواقع تخزين البيانات المختلفة وبالتالي دعم قابلية التشغيل البيني ، والتي بدورها يمكن أن تدعم استخراج البيانات الموزعة. 

3. أخلاقيات البيانات

تنطوي تحديات التنقيب عن البيانات على مسألة الأخلاق في جمع البيانات إلى حد كبير. هذا يختلف عن خصوصية البيانات. على سبيل المثال ، قد لا يكون هناك إذن صريح من المصدر الأصلي للبيانات من مكان جمعها ، حتى لو كان على منصة عامة مثل قناة وسائل التواصل الاجتماعي أو تعليق عام في منتدى استعراض المستهلك عبر الإنترنت.

على سبيل المثال ، قد يصل موقع التجارة الإلكترونية إلى المعلومات الشخصية للمستهلك مثل الموقع والعنوان والعمر وتفضيلات الشراء وما إلى ذلك ، واستخدامها لتحليل الاتجاه دون إخطار المستهلك. يصبح السؤال هو ما إذا كان من المقبول استخراج البيانات الشخصية أم لا ، حتى لو كان الغرض المباشر على ما يبدو هو بناء ذكاء الأعمال.

حل: هذه قضية حوكمة ، أكثر من أي شيء آخر ، وواحدة من تحديات التنقيب عن البيانات البارزة في بيئة الذكاء الاصطناعي الأخلاقية. يشبه إلى حد كبير موقع الويب بإعلام المستخدم بقبول ملفات تعريف الارتباط أو رفضها ، أو يتطلب إذنًا لتشغيل النوافذ المنبثقة ، يجب على الشركة أيضًا إبلاغ المستهلك بما قد يستخدم بياناته من أجله. هذه مسؤولية تحتاج الشركات إلى معالجتها لمزيد من الشفافية مع عملائها.

4. خصوصية البيانات

تعد خصوصية البيانات مشكلة خطيرة تنشأ في عملية جمع البيانات ، لا سيما عندما يتعلق الأمر بالاستماع إلى وسائل التواصل الاجتماعي وتحليلها. أصبحت منظمات وسائل التواصل الاجتماعي تحت الأضواء بشكل أكبر بسبب إخفاق Cambridge Analytica / Facebook ، والذي أدى في النهاية إلى الإفلاس السابق ، ودفع الأخير غرامة قدرها 5 مليارات دولار للحكومة الأمريكية بسبب انتهاكات خصوصية البيانات. 

بسبب هذا التدقيق المستمر ، قامت العديد من منصات التواصل الاجتماعي بما في ذلك Facebook و Snapchat و Instagram بتشديد لوائح خصوصية البيانات الخاصة بهم. وقد ثبت أن هذا يطرح تحديات التنقيب عن البيانات لتحليل المشاعر الاجتماعية.

حل: يقع هذا مرة أخرى في نطاق مبادئ الأخلاق في التنقيب عن البيانات. يجب أن تكون منصات الوسائط الاجتماعية كما هو مذكور أعلاه ، وحتى منصات أخرى مثل Twitter أو Amazon Reviews ، شفافة بشأن سياسات خصوصية البيانات الخاصة بها. هناك طريقة أخرى مهمة لمعالجة هذه المشكلة وهي تنظيم تطبيقات الجهات الخارجية التي يمكنها الوصول إلى البيانات إما من خلال الوصول المباشر إلى جهاز المستخدم الرقمي أو بشكل غير مباشر عبر أحد الاتصالات الاجتماعية للمستخدم. وثالثًا ، يحتاج علماء البيانات إلى اتباع البروتوكول المناسب عند طلب الوصول إلى تطبيقات ومنصات الوسائط الاجتماعية ، مثل Douyin ، التي لديها قواعد صارمة للغاية لحماية البيانات ويصعب الوصول إليها لأغراض التنقيب عن البيانات. لا ينبغي لأي منظمة في أي وقت استخدام القنوات الخلفية للوصول إلى هذه المعلومات المقيدة.

5. أمن البيانات

يعد أمان البيانات أمرًا كبيرًا عندما يتعلق الأمر بتحديات التنقيب عن البيانات. لا يتعلق الأمر فقط بما إذا كانت البيانات تأتي من مصدر أخلاقي أم لا ، ولكن أيضًا إذا كانت محمية على خوادمك عند استخدامها لاستخراج البيانات والتعامل معها. تعد سرقات البيانات من خلال تسريب بيانات كلمات المرور ، والتلاعب بالبيانات ، وضعف التشفير ، وإخفاء البيانات ، ونقص التحكم عبر نقاط النهاية من أسباب التهديدات الرئيسية لأمن البيانات. ليس فقط الصناعات ولكن الحكومات أصبحت أكثر صرامة مع قوانين حماية البيانات كذلك.

حل: عند جمع البيانات للتحليل ، تحتاج شركات التنقيب عن البيانات إلى تزويد العملاء بخيار الاختيار بين عام / ج
بيئة صاخبة ومنصة داخلية آمنة خلف جدار الحماية الخاص بالعميل. على الصعيد التنظيمي ، تحتاج الشركات إلى التحكم في خصوصية البيانات على نطاق واسع بدلاً من البحث عن حلول مجزأة. هم بحاجة للاستثمار في برنامج ذكي يدعم الذكاء الاصطناعي يمكنه تتبع البيانات الحساسة وفهرستها تلقائيًا من أجل تلبية لوائح خصوصية البيانات. 

تحتاج إلى إجراء تحليل مستمر للمخاطر لجميع البيانات الحساسة بالإضافة إلى المعلومات الشخصية وهويات الفهرس. يمكن أن يؤدي القيام بذلك إلى جعل مخزون البيانات أكثر تماسكًا ويجعل الوصول إلى البيانات شفافًا بحيث يمكنك مراقبة النشاط غير المصرح به. مع تفويض الخصوصية المحكم كما تم تعيينه ، يصبح من الأسهل استخدام حماية البيانات الآلية والامتثال الأمني. 

6. تعقيد البيانات

عندما يتم استخراج البيانات لتحليل المشاعر الخاصة بحالة استخدام تجربة العميل (CX) ، على سبيل المثال ، عادة ما تكون في شكل مزيج غير متجانس للغاية من أنواع البيانات التي تتضمن البيانات المكانية ، ومقاطع الفيديو التي ينشئها المستخدم ، ومقاطع فيديو الوسائط الاجتماعية ، والصور ، الميمات والرموز التعبيرية ونصوص اللغة الطبيعية وما إلى ذلك. 

معظم الأدوات التي تقدم تحليل CX غير قادرة على تحليل كل هذه الأنواع المختلفة من البيانات لأن الخوارزميات لم يتم تطويرها لاستخراج المعلومات من أنواع البيانات هذه. في مثل هذا السيناريو ، يتجاهلون أي بيانات لم تتم برمجتهم لها ، مثل الرموز التعبيرية أو مقاطع الفيديو ، ويتعاملون معها كأحرف خاصة. هذا هو أحد تحديات التنقيب عن البيانات الرائدة ، لا سيما في تحليلات الاستماع الاجتماعي.

حل: يمكن حل هذه المشكلة إذا كان النظام الأساسي لديه القدرة على التعرف على المعلومات واستخراجها من المحتوى غير النصي بنفس الطريقة التي يمكن بها من البيانات النصية. من خلال تطبيق تحليل محتوى الفيديو، يمكن استخراج هذه البيانات ومعالجتها لأغراض الأمان والمراقبة ، وتحليل المشاعر ، وتقديم الرعاية الصحية ، وأبحاث السوق ، والعديد من المجالات الأخرى.

7. منهجية

تعتبر المنهجية التي تستخدمها لاستخراج البيانات وإدارتها مهمة جدًا لأنها تؤثر على كيفية أداء منصة استخراج البيانات. في بعض الأحيان تصبح هذه مسألة اختيار شخصي ، حيث يختلف علماء البيانات غالبًا فيما يتعلق بما يعتبرونه اللغة الصحيحة - سواء كانت R أو Golang أو Python - للحصول على نتائج مثالية للتنقيب عن البيانات. كيف يظهر هذا في تحديات التنقيب عن البيانات هو عندما تنشأ مواقف عمل مختلفة ، مثل عندما تحتاج الشركة إلى التوسع ويجب أن تعتمد بشكل كبير على البيئات الافتراضية. 

حل: لا يكمن الحل هنا في النظر إلى كل لغة حوسبة على حدة ولكن في الصورة الأكبر لما تعنيه منصة التعلم الآلي الخاصة بك. إذا كنت تبحث عن نموذج مصمم لمواقع الويب ، فإن Python تعمل بشكل جيد. إذا كنت تبحث في البيانات والأمان ، فيجب تفضيل Java لأسباب واضحة. مرة أخرى ، إذا كنت تبحث عن السرعة وقابلية التوسع والبيئات القائمة على السحابة ، فإن Go يقدم لك هذه الإمكانية. 

8. سياق البيانات

تضمن المعلومات السياقية أن استخراج البيانات أكثر فعالية وأن النتائج أكثر دقة. ومع ذلك ، فإن الافتقار إلى المعرفة الأساسية يعمل كواحد من العديد من تحديات التنقيب عن البيانات الشائعة التي تعيق الفهم الدلالي.

حل: يمكن أن تساعد البيانات الوصفية في هذا بدرجة كبيرة. نظرًا لأنها توفر معلومات حول البيانات الأخرى ، تساعد البيانات الوصفية في استخراج البيانات وتنظيفها. إنه أيضًا بسبب الملخصات التي توفرها أننا نحصل على مزيد من المعلومات السياقية بين البيانات التفصيلية الحالية والبيانات شديدة التلخيص. على سبيل المثال ، يتيح لك البحث عبر تيرابايت من البيانات لإخبارك بمن هو مغني أغنية معينة ، أو مؤلف ورقة بحثية. لهذا السبب تحتاج المنظمة إلى الاهتمام بجودة البيانات الوصفية الخاصة بها.

9. تصور البيانات

تكثر تحديات التنقيب عن البيانات في التصور الفعلي لمخرجات معالجة اللغة الطبيعية (NLP) نفسها. حتى إذا كان على المرء التغلب على جميع المشكلات المذكورة أعلاه في التنقيب عن البيانات ، فلا تزال هناك صعوبة في التعبير عن النتيجة المعقدة بطريقة مبسطة. من المهم مراعاة حقيقة أن معظم المستخدمين النهائيين ليسوا من المجتمع التقني وهذا هو السبب الرئيسي وراء عدم وصول العديد من أدوات تصور البيانات إلى الهدف.

حل: يمكن تحقيق التصور الناجح للبيانات إذا تأكدنا من توفير بيانات المخرجات في شكل مخططات أو رسوم بيانية أو رموز ألوان أو تمثيلات رسومية أخرى يمكن فهمها بسهولة. تعد سحابة الكلمات مثالًا رائعًا على كيفية قيام الخوارزميات المعقدة بعرض نتائج الاستعلام بطريقة فعالة يمكن لمستخدم غير تقني في قسم التسويق اتباعها.

10. زمن الاستجابة

أخيرًا وليس آخرًا ، مسألة وقت استجابة نموذج التنبؤ. تعتبر الدقة والدقة في غاية الأهمية في بيئة الأعمال ، ولكن من الضروري أيضًا توفير وقت استجابة عالي الكفاءة. فكر في بورصات الأوراق المالية: في مثل هذه الصناعة التي تعتمد فيها قرارات تداول الأسهم في أجزاء من الثانية اعتمادًا كبيرًا على تحليلات وتوقعات السوق في الوقت الفعلي تقريبًا ، يصبح وقت الاستجابة أمرًا بالغ الأهمية.

حل: عند التخطيط لحل التعلم الآلي ، يحتاج علماء البيانات إلى اتخاذ قرار بشأن إيجابيات وسلبيات هذه الخوارزميات مع مراعاة تطبيق الأعمال الذي يتم بناء الحل من أجله. بعض الخوارزميات سهلة الإنشاء - على سبيل المثال ، طرق التصنيف غير المعلمية مثل خوارزمية k-الأقرب (K-NN) ، والتي تستخدم بشكل شائع في التصنيف والانحدار. ومع ذلك ، فهي ليست فعالة من حيث الوقت أثناء التنبؤ بالمتغيرات المستهدفة. 

من ناحية أخرى ، فإن الخوارزميات الأخرى مثل طرق التعلم الخاضعة للإشراف غير البارامترية التي تتضمن أشجار القرار (DTs) تستغرق وقتًا طويلاً لتطويرها ولكن يمكن ترميزها في أي تطبيق تقريبًا. هذا هو السبب في أن التبصر والتخطيط السليم مهمان للغاية.

وفي الختام

ساعدنا التنقيب عن البيانات في فهم البيانات الضخمة بطريقة غيرت مسار الطريقة التي تعمل بها الشركات والصناعات. لقد ساعدنا على قطع شوط طويل في فهم المعلوماتية الحيوية والتنبؤ العددي بالطقس والحماية من الاحتيال في البنوك والمؤسسات المالية ، فضلاً عن السماح لنا باختيار فيلم مفضل على قناة بث الفيديو. يجب أن نستمر في تطوير حلول لتحديات التنقيب عن البيانات حتى نتمكن من بناء حلول أكثر كفاءة للذكاء الاصطناعي والتعلم الآلي.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة