شعار زيفيرنت

الذكاء الاصطناعي يتعلم اللغة من خلال عيون وآذان طفل صغير

التاريخ:

كان عمر سام ستة أشهر عندما قام لأول مرة بربط كاميرا خفيفة الوزن على جبهته.

لمدة عام ونصف العام المقبل، التقطت الكاميرا مقتطفات من حياته. كان يزحف حول حيوانات العائلة الأليفة، ويشاهد والديه وهما يطبخان، وبكى على الشرفة الأمامية مع جدته. طوال الوقت، سجلت الكاميرا كل ما سمعه.

ما يبدو وكأنه فيديو منزلي لطيف لطفل صغير هو في الواقع مفهوم جريء: هل يستطيع الذكاء الاصطناعي تعلم اللغة مثل الطفل؟ يمكن أن تكشف النتائج أيضًا عن كيفية اكتساب الأطفال للغة والمفاهيم بسرعة في سن مبكرة.

كشفت دراسة جديدة in علوم يصف كيف استخدم الباحثون تسجيلات سام لتدريب الذكاء الاصطناعي على فهم اللغة. ومن خلال جزء صغير فقط من تجربة حياة طفل واحد على مدار عام، تمكن الذكاء الاصطناعي من استيعاب المفاهيم الأساسية، على سبيل المثال، كرة، أو فراشة، أو دلو.

الذكاء الاصطناعي، المسمى "رؤية الطفل للتعلم المتباين" (CVCL)، يحاكي تقريبًا الطريقة التي نتعلم بها عندما كنا أطفالًا صغارًا من خلال مطابقة البصر مع الصوت. إنه نهج مختلف تمامًا عن ذلك الذي تتبعه نماذج اللغات الكبيرة مثل تلك خلف ChatGPT أو Bard. لقد أثارت قدرة هذه النماذج الخارقة على صياغة المقالات أو الشعر أو حتى نصوص البودكاست إعجاب العالم. لكنهم يحتاجون إلى استيعاب تريليونات الكلمات من مجموعة واسعة من المقالات الإخبارية والسيناريوهات والكتب لتطوير هذه المهارات.

وعلى النقيض من ذلك، يتعلم الأطفال بمدخلات أقل بكثير ويعممون ما تعلموه بسرعة أثناء نموهم. ولطالما تساءل العلماء عما إذا كان الذكاء الاصطناعي يمكنه التقاط هذه القدرات من خلال التجارب اليومية وحدها.

"لقد أظهرنا، لأول مرة، أن الشبكة العصبية التي تم تدريبها على هذه المدخلات الواقعية من الناحية التنموية من طفل واحد يمكنها أن تتعلم ربط الكلمات بنظيراتها البصرية،" هذا ما قاله مؤلف الدراسة الدكتور واي كين فونج من مركز علوم البيانات بجامعة نيويورك. وقال في بيان صحفي حول البحث.

لعب طفل

يستوعب الأطفال الكلمات ومعانيها بسهولة من التجارب اليومية.

في عمر ستة أشهر فقط، يبدأون في ربط الكلمات بما يرونه - على سبيل المثال، الشيء الدائري النطاط هو "كرة". وببلوغهم عامين، يكونون قادرين على معرفة ما يقرب من 300 كلمة ومفاهيمها.

لقد ناقش العلماء منذ فترة طويلة كيف يحدث هذا. تقول إحدى النظريات أن الأطفال يتعلمون مطابقة ما يرونه مع ما يسمعونه. ويشير آخر إلى أن تعلم اللغة يتطلب تجربة أوسع للعالم، مثل التفاعل الاجتماعي والقدرة على التفكير.

من الصعب فصل هذه الأفكار عن الاختبارات المعرفية التقليدية لدى الأطفال الصغار. ولكن قد نحصل على إجابة من خلال تدريب الذكاء الاصطناعي من خلال عيون وآذان الطفل.

M3GAN؟

استفادت الدراسة الجديدة من مصدر فيديو غني يسمى SAYCam، والذي يتضمن بيانات تم جمعها من ثلاثة أطفال تتراوح أعمارهم بين 6 و 32 شهرًا باستخدام كاميرات تشبه GoPro مثبتة على جباههم.

سجلت الكاميرات مرتين كل أسبوع حوالي ساعة من اللقطات والصوت أثناء رعايتهم وزحفهم ولعبهم. تم نسخ كل الحوار المسموع إلى "أقوال" - كلمات أو جمل يتم التحدث بها قبل أن يتغير المتحدث أو المحادثة. والنتيجة هي ثروة من بيانات الوسائط المتعددة من وجهة نظر الأطفال الرضع والأطفال الصغار.

بالنسبة للنظام الجديد، صمم الفريق شبكتين عصبيتين مع "قاضي" لتنسيقهما. إحدى الصور المرئية المترجمة بضمير المتكلم إلى هوية وماذا في المشهد - هل هي أم تطبخ؟ وغيرها من الكلمات والمعاني التي تم فك شفرتها من التسجيلات الصوتية.

تم بعد ذلك ربط النظامين في الوقت المناسب، لذلك تعلم الذكاء الاصطناعي ربط الصور المرئية الصحيحة بالكلمات. على سبيل المثال، تعلم الذكاء الاصطناعي مطابقة صورة طفل مع عبارة "انظر، هناك طفل" أو صورة كرة يوغا مع عبارة "واو، هذه كرة كبيرة". ومن خلال التدريب، تعلمت تدريجيًا كيفية فصل مفهوم كرة اليوجا عن مفهوم الطفل.

وقال فونج: "يوفر هذا للنموذج فكرة عن الكلمات التي يجب أن ترتبط بالأشياء".

ثم قام الفريق بتدريب الذكاء الاصطناعي على مقاطع فيديو تعود إلى ما يقرب من عام ونصف من حياة سام. وقد بلغ مجموعها أكثر من 600,000 إطار فيديو، مقترنة بـ 37,500 عبارة مكتوبة. على الرغم من أن الأرقام تبدو كبيرة، إلا أنها لا تمثل سوى واحد بالمائة تقريبًا من حياة يقظته اليومية وفوله السوداني مقارنة بكمية البيانات المستخدمة لتدريب نماذج لغوية كبيرة.

الطفل الذكاء الاصطناعي في صعود

ولاختبار النظام، قام الفريق بتعديل اختبار معرفي شائع يستخدم لقياس قدرات الأطفال اللغوية. أظهروا للذكاء الاصطناعي أربع صور جديدة - قطة، وسرير، وكرة، وحشيشة - وسألوا أي منها هي الكرة.

بشكل عام، اختار الذكاء الاصطناعي الصورة الصحيحة في حوالي 62 بالمائة من الحالات. تطابق الأداء تقريبًا مع خوارزمية حديثة تم تدريبها على 400 مليون زوج من الصور والنصوص من الويب، وهي بيانات أكبر بكثير من تلك المستخدمة لتدريب الذكاء الاصطناعي في الدراسة. ووجدوا أن ربط صور الفيديو بالصوت أمر بالغ الأهمية. عندما قام الفريق بخلط إطارات الفيديو والألفاظ المرتبطة بها، انهار النموذج تمامًا.

يمكن للذكاء الاصطناعي أيضًا "التفكير" خارج الصندوق والتعميم على المواقف الجديدة.

وفي اختبار آخر، تم تدريبه على منظور سام للكتاب المصور حيث قال والده: "إنهما بطة وفراشة". وفي وقت لاحق، رفع لعبة الفراشة عندما سُئل: "هل يمكنك القيام بالفراشة؟" وعندما تم تحديها بصور الفراشات متعددة الألوان - تلك التي لم يسبق للذكاء الاصطناعي رؤيتها من قبل - اكتشف ثلاثة من أصل أربعة أمثلة لـ "الفراشة" بدقة تزيد عن 80 بالمائة.

لم تسجل جميع مفاهيم الكلمات نفس النتيجة. على سبيل المثال، كانت كلمة "ملعقة" عبارة عن صراع. ولكن تجدر الإشارة إلى أنه مثل صعبة اختبار reCAPTCHAكان من الصعب فك رموز صور التدريب حتى بالنسبة للإنسان.

آلام النمو

يعتمد الذكاء الاصطناعي على التطورات الحديثة في التعلم الآلي متعدد الوسائط، والذي يجمع بين النصوص والصور والصوت والفيديو لتدريب الدماغ الآلي.

ومن خلال مدخلات من تجربة طفل واحد فقط، تمكنت الخوارزمية من التقاط كيفية ارتباط الكلمات ببعضها البعض وربط الكلمات بالصور والمفاهيم. وتشير إلى أن سماع الكلمات للأطفال الصغار ومطابقتها مع ما يرونه يساعد في بناء مفرداتهم.

هذا لا يعني أن العمليات الدماغية الأخرى، مثل الإشارات الاجتماعية والتفكير المنطقي، لا تلعب دورًا. وكتب الباحثون أن إضافة هذه المكونات إلى الخوارزمية يمكن أن يؤدي إلى تحسينها.

ويخطط الفريق لمواصلة التجربة. في الوقت الحالي، يتعلم الذكاء الاصطناعي "الطفل" فقط من إطارات الصور الثابتة ولديه مفردات تتكون في الغالب من الأسماء. يمكن أن يساعد دمج مقاطع الفيديو في التدريب الذكاء الاصطناعي على تعلم الأفعال لأن الفيديو يتضمن الحركة.

يمكن أن تساعد أيضًا إضافة التنغيم إلى بيانات الكلام. يتعلم الأطفال في وقت مبكر أن كلمة "همم" التي تصدرها الأم يمكن أن يكون لها معاني مختلفة إلى حد كبير اعتمادًا على النغمة.

لكن بشكل عام، يعد الجمع بين الذكاء الاصطناعي وتجارب الحياة طريقة جديدة قوية لدراسة كل من أدمغة الآلة والبشر. يمكن أن يساعدنا في تطوير نماذج ذكاء اصطناعي جديدة تتعلم مثل الأطفال، وربما تعيد تشكيل فهمنا لكيفية تعلم أدمغتنا اللغة والمفاهيم.

حقوق الصورة: واي كين فونج

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة