يعتمد تقدم الذكاء الاصطناعي علينا باستخدام بيانات أقل وليس أكثر

في مجتمع علوم البيانات ، نشهد بدايات ملف انفوسمي - حيث تصبح المزيد من البيانات مسؤولية وليس أصلًا. نحن نتحرك باستمرار نحو المزيد من البيانات المتعطشة للبيانات وأكثر تكلفة من الناحية الحسابية من نماذج الذكاء الاصطناعي الحديثة. وسيؤدي ذلك إلى بعض الآثار الجانبية الضارة وربما غير البديهية (سأتحدث عنها قريبًا).

لتجنب الجوانب السلبية الخطيرة ، يجب على مجتمع علم البيانات أن يبدأ العمل مع بعض القيود المفروضة ذاتيًا: على وجه التحديد ، البيانات المحدودة والموارد الحاسوبية.

ستعمل ممارسة الحد الأدنى من البيانات على تمكين العديد من الصناعات التي يحركها الذكاء الاصطناعي - بما في ذلك الأمن السيبراني ، وهو مجال تركيزي الخاص - لتصبح أكثر كفاءة ، ويمكن الوصول إليها ، واستقلالية ، وتعطيل.

عندما تصبح البيانات نقمة وليست نعمة

قبل أن نذهب إلى أبعد من ذلك ، اسمحوا لي أن أشرح المشكلة في اعتمادنا على خوارزميات الذكاء الاصطناعي المتعطشة للبيانات بشكل متزايد. بعبارات مبسطة ، فإن النماذج التي تعمل بالذكاء الاصطناعي "تتعلم" دون أن تكون مبرمجة بشكل صريح للقيام بذلك ، من خلال عملية التجربة والخطأ التي تعتمد على قائمة مجمعة من العينات. كلما زاد عدد نقاط البيانات لديك - حتى لو بدا أن العديد منها لا يمكن تمييزه بالعين المجردة ، يجب أن تحصل نظريًا على نماذج أكثر دقة وقوة تعمل بالذكاء الاصطناعي.

بحثًا عن دقة أعلى ومعدلات إيجابية زائفة منخفضة ، تواجه صناعات مثل الأمن السيبراني - الذي كان متفائلًا في السابق بشأن قدرته على الاستفادة من الكمية غير المسبوقة من البيانات التي أعقبت التحول الرقمي للمؤسسة - الآن مجموعة جديدة كاملة من التحديات:

1. الذكاء الاصطناعي لديه إدمان حسابي. الخوف المتزايد هو أن التطورات الجديدة في أبحاث الذكاء الاصطناعي التجريبية ، والتي تتطلب في كثير من الأحيان مجموعات بيانات هائلة مدعومة ببنية تحتية حسابية مناسبة ، قد تنجم عن قيود الحوسبة والذاكرة ، ناهيك عن المالية و تكاليف بيئية من احتياجات الحوسبة الأعلى.

بينما قد نصل إلى العديد من معالم الذكاء الاصطناعي الأخرى من خلال هذا النهج الثقيل بالبيانات ، مع مرور الوقت ، سنرى تقدمًا بطيئًا. يجب أن يكون ميل مجتمع علم البيانات إلى استهداف البيانات - "لا تشبع" واستنزاف البيانات من أحدث النماذج في بعض المجالات (مثل مجال البرمجة اللغوية العصبية والنماذج اللغوية واسعة النطاق السائدة) بمثابة علامة تحذير. تشير تحليلات OpenAI إلى أن مجتمع علوم البيانات هو أكثر فعالية في تحقيق الأهداف التي تم الحصول عليها بالفعل ولكن شرح أنها تتطلب المزيد من الحوسبة ، ببضعة أوامر من حيث الحجم ، للوصول إلى إنجازات جديدة مثيرة للذكاء الاصطناعي. باحثو معهد ماساتشوستس للتكنولوجيا مقدر أن "ثلاث سنوات من التحسين الخوارزمي تعادل زيادة 10 مرات في قوة الحوسبة." علاوة على ذلك ، فإن إنشاء نموذج مناسب للذكاء الاصطناعي يتحمل انحرافات المفاهيم بمرور الوقت ويتغلب على "نقص المواصفات"عادة ما يتطلب جولات متعددة من التدريب والضبط ، مما يعني المزيد من موارد الحوسبة.

إذا كان دفع مظروف الذكاء الاصطناعي يعني استهلاك المزيد من الموارد المتخصصة بتكاليف أعلى ، فعندئذ ، نعم ، سيستمر عمالقة التكنولوجيا الرائدة في دفع الثمن للبقاء في الصدارة ، ولكن أكثر ستجد المؤسسات الأكاديمية صعوبة في المشاركة في هذه المنافسة "عالية المخاطر - المكافأة العالية". من المرجح أن تتبنى هذه المؤسسات إما تقنيات فعالة في استخدام الموارد أو تطلع على مجالات البحث المجاورة. قد يكون لحاجز الحوسبة الكبير تأثير تبريد لا مبرر له على الباحثين الأكاديميين أنفسهم ، الذين قد يختارون ضبط النفس أو الامتناع تمامًا عن الاطلاع على التطورات الثورية المدعومة بالذكاء الاصطناعي.

2. البيانات الضخمة يمكن أن تعني ضوضاء زائفة أكثر. حتى إذا افترضت أنك قد حددت وصممت بشكل صحيح هدف وهندسة نموذج الذكاء الاصطناعي وأنك جمعت بيانات ذات صلة ورعايتها وأعدت بشكل كافٍ ، فليس لديك أي ضمان بأن النموذج سيحقق نتائج مفيدة وقابلة للتنفيذ. أثناء عملية التدريب ، مع استهلاك نقاط بيانات إضافية ، قد يستمر النموذج في تحديد الارتباطات الزائفة المضللة بين المتغيرات المختلفة. قد ترتبط هذه المتغيرات بطريقة تبدو ذات دلالة إحصائية ، ولكنها ليست مرتبطة سببيًا وبالتالي لا تعمل كمؤشرات مفيدة لأغراض التنبؤ.

أرى هذا في مجال الأمن السيبراني: تشعر الصناعة بأنها مضطرة لأخذ أكبر عدد ممكن من الميزات في الاعتبار ، على أمل إنشاء آليات اكتشاف واكتشاف أفضل ، وخطوط أساسية للأمان ، وعمليات مصادقة ، لكن الارتباطات الزائفة يمكن أن تلقي بظلالها على الارتباطات الخفية التي يهم فعلا.

3. ما زلنا نحقق تقدمًا خطيًا فقط. قد تكون حقيقة أن النماذج الكبيرة المتعطشة للبيانات تؤدي أداءً جيدًا للغاية في ظل ظروف معينة ، عن طريق محاكاة المحتوى الذي ينشئه الإنسان أو تجاوز بعض قدرات الكشف والتعرف البشرية ، أمرًا مضللًا. قد يمنع ممارسي البيانات من إدراك أن بعض الجهود الحالية في أبحاث الذكاء الاصطناعي التطبيقية تعمل فقط على توسيع القدرات القائمة على الذكاء الاصطناعي في تقدم خطي بدلاً من إنتاج قفزات حقيقية - في الطريقة التي تؤمن بها المؤسسات أنظمتها وشبكاتها ، على سبيل المثال.

أسفرت نماذج التعلم العميق غير الخاضعة للإشراف التي تم تغذيتها على مجموعات البيانات الكبيرة عن نتائج ملحوظة على مر السنين - خاصة من خلال التعلم عن طريق النقل والشبكات التوليدية (GANs). ولكن حتى في ضوء التقدم في أبحاث الذكاء الاصطناعي ذات الطابع العصبي، النماذج التي تعمل بالذكاء الاصطناعي لا تزال بعيدة عن إظهار الحدس الشبيه بالبشر أو الخيال أو التفكير من أعلى إلى أسفل أو الذكاء الاصطناعي العام (AGI) الذي يمكن تطبيقه على نطاق واسع وفعال على مشكلات مختلفة جذريًا - مثل الأمن المتنوع وغير المدروس والمتطور المهام أثناء مواجهة خصوم ديناميكيين ومتطورين.

4. خصوصية المخاوف تتوسع. أخيرًا وليس آخرًا ، يثير جمع وتخزين واستخدام كميات كبيرة من البيانات (بما في ذلك البيانات التي ينشئها المستخدم) - والتي تعتبر صالحة بشكل خاص لتطبيقات الأمن السيبراني - عددًا كبيرًا من الاعتبارات المتعلقة بالخصوصية والمخاوف القانونية والتنظيمية. يتم دحض الحجج القائلة بأن نقاط البيانات المتعلقة بالأمن السيبراني لا تحمل أو تشكل معلومات تعريف شخصية (PII) هذه الأيام ، لأن الارتباط القوي بين الهويات الشخصية والسمات الرقمية يوسع التعريف القانوني لمعلومات التعريف الشخصية ليشمل ، على سبيل المثال ، حتى عنوان IP.

كيف تعلمت التوقف عن القلق والاستمتاع بنقص البيانات

من أجل التغلب على هذه التحديات ، وتحديداً في منطقتي ، الأمن السيبراني ، علينا أولاً وقبل كل شيء مواءمة التوقعات.

أبرز الظهور غير المتوقع لـ Covid-19 صعوبة نماذج الذكاء الاصطناعي في التكيف بشكل فعال مع الظروف والحالات غير المرئية ، وربما غير المتوقعة (مثل الانتقال العالمي إلى العمل عن بُعد) ، لا سيما في الفضاء الإلكتروني حيث تكون العديد من مجموعات البيانات شاذة بشكل طبيعي أو تتميز بالتباين العالي. أكد الوباء فقط على أهمية توضيح هدف النموذج بشكل واضح ودقيق وإعداد بيانات التدريب الخاصة به بشكل مناسب. هذه المهام عادة ما تكون مهمة و صناعة ثقيلة مثل تجميع عينات إضافية أو حتى اختيار وشحذ بنية النموذج.

في هذه الأيام ، يتعين على صناعة الأمن السيبراني أن تمر بمرحلة إعادة معايرة أخرى حيث إنها تتعامل مع عدم قدرتها على التعامل مع "جرعة البيانات الزائدة" ، أو الوباء المعلوماتي ، الذي ابتليت به عالم الإنترنت. يمكن أن تكون الأساليب التالية بمثابة مبادئ إرشادية لتسريع عملية إعادة المعايرة هذه ، وهي صالحة لمجالات أخرى من الذكاء الاصطناعي أيضًا ، وليس فقط الأمن السيبراني:

فعالية الخوارزميات كأولوية قصوى. من خلال تقييم قانون مور الهضبة ، تعمل الشركات والباحثون في مجال الذكاء الاصطناعي على تكثيف فعالية الخوارزميات من خلال اختبار الأساليب والتقنيات المبتكرة ، والتي لا يزال بعضها في مرحلة النشر. هذه الأساليب ، التي تنطبق حاليًا فقط على مهام محددة ، تتراوح من تطبيق المحولات، لصقل لقطات قليلة ، طلقة واحدةو تعلم أقل من طلقة واحدة الأساليب.

نهج التعزيز البشري أولاً. من خلال قصر نماذج الذكاء الاصطناعي على زيادة سير عمل أخصائي الأمن والسماح للذكاء البشري والاصطناعي بالعمل جنبًا إلى جنب ، يمكن تطبيق هذه النماذج على تطبيقات أمنية ضيقة جدًا ومحددة جيدًا ، والتي تتطلب بطبيعتها بيانات تدريب أقل. يمكن أن تتجلى حواجز حماية الذكاء الاصطناعي هذه من حيث التدخل البشري أو من خلال دمج الخوارزميات المستندة إلى القواعد التي ترميز الحكم البشري. ليس من قبيل المصادفة أن عددًا متزايدًا من بائعي خدمات الأمن يفضلون تقديم حلول تعتمد على الذكاء الاصطناعي والتي تزيد فقط من قدرة الإنسان في الحلقة ، بدلاً من استبدال الأحكام البشرية معًا.

يمكن للمنظمين أيضًا أن ينظروا بشكل إيجابي إلى هذا النهج ، لأنهم يبحثون عن مساءلة بشرية ، وإشراف ، وآليات آمنة من الفشل ، لا سيما عندما يتعلق الأمر بالعمليات الآلية والمعقدة و "الصندوق الأسود". يحاول بعض البائعين إيجاد حل وسط من خلال إدخال التعلم النشط أو منهجيات التعلم المعزز ، والتي تستفيد من المدخلات البشرية والخبرة لإثراء النماذج الأساسية نفسها. بالتوازي، الباحثون يعملون على تعزيز وتحسين التفاعل بين الإنسان والآلة من خلال تدريس نماذج الذكاء الاصطناعي عند إرجاء القرار إلى الخبراء البشريين.

الاستفادة من تحسينات الأجهزة. لم يتضح بعد ما إذا كانت بنيات ومعالجات الرقائق المخصصة والمُحسّنة للغاية جنبًا إلى جنب مع تقنيات وأطر البرمجة الجديدة ، أو حتى أنظمة محوسبة مختلفة تمامًا ، ستكون قادرة على تلبية الطلب المتزايد باستمرار على حسابات الذكاء الاصطناعي. تم تصميم بعض هذه الأسس التكنولوجية الجديدة المصممة خصيصًا لتطبيقات الذكاء الاصطناعي ، والتي تربط وتوائم الأجهزة والبرامج المتخصصة بشكل وثيق ، وهي أكثر قدرة من أي وقت مضى على أداء أحجام لا يمكن تصورها من العمليات الحسابية المتوازية ومضاعفات المصفوفة ومعالجة الرسوم البيانية.

بالإضافة إلى ذلك ، قد تلعب الأمثلة السحابية المصممة لهذا الغرض لحساب الذكاء الاصطناعي ، وخطط التعلم الموحدة ، والتقنيات الحدودية (الرقائق العصبية والحوسبة الكمومية ، وما إلى ذلك) دورًا رئيسيًا في هذا الجهد. على أي حال ، من غير المرجح أن تحد هذه التطورات وحدها من الحاجة إلى تحسين الخوارزمية الذي قد يحدث "تجاوز المكاسب من كفاءة الأجهزة." ومع ذلك ، يمكن أن تثبت أنها حاسمة ، لأن معركة أشباه الموصلات المستمرة من أجل هيمنة الذكاء الاصطناعي لم تسفر بعد عن فائز واضح.

مزايا انضباط البيانات

حتى الآن ، عادة ما تملي الحكمة التقليدية في علم البيانات أنه عندما يتعلق الأمر بالبيانات ، كلما كان لديك المزيد ، كان ذلك أفضل. لكننا بدأنا الآن نرى أن عيوب نماذج الذكاء الاصطناعي المتعطشة للبيانات قد تفوق بمرور الوقت مزاياها بلا منازع.

لدى الشركات وبائعي الأمن السيبراني وممارسي البيانات الآخرين حوافز متعددة ليكونوا أكثر انضباطًا في طريقة جمعهم وتخزينهم واستهلاكهم للبيانات. كما أوضحت هنا ، فإن أحد الحوافز التي يجب أن تكون على رأس أولوياتنا هو القدرة على رفع مستوى دقة وحساسية نماذج الذكاء الاصطناعي مع التخفيف من مخاوف الخصوصية. قد تكون المنظمات التي تتبنى هذا النهج ، والتي تعتمد على ندرة البيانات بدلاً من وفرة البيانات ، وتمارس ضبط النفس ، مجهزة بشكل أفضل لدفع المزيد من الابتكارات القابلة للتنفيذ والفعالية من حيث التكلفة المدفوعة بالذكاء الاصطناعي على المدى الطويل.

ايال باليسر هو نائب الرئيس الأول للشراكة الإلكترونية العالمية وابتكار المنتجات في Citi.

VentureBeat

تتمثل مهمة VentureBeat في أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى:

معلومات محدثة عن الموضوعات التي تهمك
رسائلنا الإخبارية
محتوى رائد الفكر وإمكانية وصول مخفضة إلى أحداثنا الثمينة ، مثل Transform
ميزات الشبكات والمزيد

تصبح عضوا

المصدر: https://venturebeat.com/2021/02/13/ai-progress-depends-on-us-using-less-data-not-more/

ذكاء البيانات التوليدية

يعتمد تقدم الذكاء الاصطناعي على استخدامنا لبيانات أقل وليس أكثر

عندما تصبح البيانات نقمة وليست نعمة

كيف تعلمت التوقف عن القلق والاستمتاع بنقص البيانات

مزايا انضباط البيانات

VentureBeat

تقود Bitcoin مبيعات NFT لمدة 30 يومًا، متجاوزة 24 منافسًا لـ Blockchain

إعطاء الأولوية لميزة المتحرك الأول على الأمن يترك بروتوكولات Defi عرضة للاختراقات – نيكيتا أوفتشينيك

أحدث المعلومات الاستخباراتية

يكشف مجلس تنمية تجارة هونغ كونغ عن فعاليات الهدايا والطباعة والتغليف والترخيص

كارلي هانسون تشيد بغلافها المخلص لفيلم "Nutshell" لـ Alice In Chains

ستقوم هيونداي ببناء المزيد من السيارات الهجينة لتكملة تباطؤ الطلب على السيارات الكهربائية – Autoblog

دريك مهدد برفع دعوى قضائية بسبب غناء توباك AI

NFTs الحصرية الخاصة بترامب بيتكوين مع أرقام ترتيبية مخصصة لمشتري "إصدار Mugshot" - CryptoInfoNet

توفر الشركة تدريبًا على محو الأمية المالية الرقمية للنيجيريين - CryptoInfoNet