شعار زيفيرنت

نموذج جديد للرؤية

التاريخ:

عندما نفتح أعيننا ، نرى على الفور محيطنا بتفصيل كبير. تعد قدرة الدماغ على تكوين هذه العروض التفصيلية الغنية للعالم بسرعة كبيرة واحدة من أكبر الألغاز التي لم يتم حلها في دراسة الرؤية.

حاول العلماء الذين يدرسون الدماغ تكرار هذه الظاهرة باستخدام نماذج كمبيوتر للرؤية ، لكن حتى الآن ، تؤدي النماذج الرائدة فقط مهام أبسط بكثير مثل انتقاء كائن أو وجه على خلفية متجمعة. الآن ، أنتج فريق بقيادة علماء الإدراك في معهد ماساتشوستس للتكنولوجيا نموذجًا للحاسوب يستوعب قدرة النظام البصري البشري على توليد وصف مفصل للمشهد بسرعة من صورة ما ، ويقدم بعض نظرة ثاقبة حول كيفية تحقيق الدماغ لذلك.

يقول جوش: "ما كنا نحاول القيام به في هذا العمل هو شرح كيف يمكن أن يكون الإدراك أكثر ثراءً من مجرد ربط الملصقات الدلالية على أجزاء من الصورة ، واستكشاف مسألة كيف نرى كل العالم المادي". Tenenbaum ، أستاذ العلوم المعرفية الحسابية وعضو في مختبر علوم الحاسوب والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا (CSAIL) ومركز العقول والعقول والآلات (CBMM).

يفترض النموذج الجديد أنه عندما يتلقى المخ إدخالًا مرئيًا ، فإنه ينفذ بسرعة سلسلة من الحسابات التي تعكس الخطوات التي قد يستخدمها برنامج رسومات الكمبيوتر لإنشاء تمثيل ثنائي الأبعاد للوجه أو كائن آخر. هذا النوع من النماذج ، المعروف باسم الرسومات العكسية الفعالة (EIG) ، يرتبط أيضًا بشكل جيد بالتسجيلات الكهربائية من مناطق انتقائية للوجه في أدمغة الرئيسيات غير البشرية ، مما يوحي بأن النظام البصري الرئيسى قد يتم تنظيمه بنفس طريقة نموذج الكمبيوتر. كما يقول الباحثون.

إيلكر يلدريم ، وهو طالب سابق في معهد ماساتشوستس للتكنولوجيا ، وهو الآن أستاذ مساعد في علم النفس بجامعة ييل ، وهو المؤلف الرئيسي لهذه الورقة ، التي تظهر اليوم في علم السلف. Tenenbaum و Winrich Freiwald ، أستاذ علوم الأعصاب والسلوك في جامعة روكفلر ، وكبار مؤلفي الدراسة. ماريو بيليدون ، طالب دراسات عليا في جامعة ييل ، مؤلف أيضًا.

الرسومات العكسية

لقد درست عقود من الأبحاث حول النظام البصري للمخ ، بتفصيل كبير ، كيف يتحول إدخال الضوء على شبكية العين إلى مشاهد متماسكة. ساعد هذا الفهم الباحثين في مجال الذكاء الاصطناعي على تطوير نماذج كمبيوتر يمكنها تكرار جوانب هذا النظام ، مثل التعرف على الوجوه أو الأشياء الأخرى.

يقول تيننباوم: "الرؤية هي الجانب الوظيفي للدماغ الذي نفهمه بشكل أفضل عند البشر والحيوانات الأخرى". "رؤية الكمبيوتر هي واحدة من أنجح مجالات الذكاء الاصطناعي في هذه المرحلة. من المسلم به أن الآلات يمكنها الآن النظر إلى الصور والتعرف على الوجوه جيدًا ، واكتشاف أنواع أخرى من الكائنات ".

ومع ذلك ، حتى أنظمة الذكاء الاصطناعي المعقدة هذه لا تقترب مما يمكن أن يفعله النظام البصري البشري ، كما يقول يلديريم.

يقول: "لا تكتشف أدمغتنا أن هناك كائنًا هناك فقط ، أو تتعرف على شيء ما وتضع علامة على شيء ما". "نرى كل الأشكال ، والهندسة ، والأسطح ، والقوام. نحن نرى عالما غنيا جدا. "

منذ أكثر من قرن من الزمان ، نظّر الطبيب والفيزيائي والفيلسوف هيرمان فون هلمهولتز أن الدماغ يخلق هذه الصور الغنية عن طريق عكس عملية تكوين الصورة. افترض أن النظام المرئي يتضمن مولد صور يمكن استخدامه ، على سبيل المثال ، لإنتاج الوجوه التي نراها أثناء الأحلام. يقول الباحثون إن تشغيل هذا المولد في الاتجاه المعاكس من شأنه أن يسمح للدماغ بالعمل للخلف من الصورة واستنتاج نوع الوجه أو أي شيء آخر ينتج تلك الصورة.

ومع ذلك ، ظل السؤال: كيف يمكن للدماغ إجراء هذه العملية ، والمعروفة باسم الرسومات العكسية ، بهذه السرعة؟ حاول علماء الكمبيوتر إنشاء خوارزميات يمكنها أداء هذا العمل الفذ ، لكن أفضل الأنظمة السابقة تتطلب دورات عديدة من المعالجة التكرارية ، تستغرق وقتًا أطول بكثير من 100 إلى 200 ميلي ثانية يتطلبها الدماغ لإنشاء تمثيل مرئي مفصل لما تراه. يعتقد علماء الأعصاب أن الإدراك الحسي في الدماغ يمكن أن يستمر بسرعة كبيرة لأنه يتم تنفيذه في الغالب عبر عدة طبقات منظمة من المعالجة العصبية.

بدأ الفريق بقيادة معهد ماساتشوستس للتكنولوجيا بناء نوع خاص من نموذج الشبكة العصبية العميقة لإظهار كيف يمكن للتسلسل الهرمي العصبي أن يستنتج بسرعة السمات الأساسية للمشهد - في هذه الحالة ، وجه معين. على النقيض من الشبكات العصبية العميقة القياسية المستخدمة في رؤية الكمبيوتر ، والتي يتم تدريبها من البيانات المصنفة التي تشير إلى فئة كائن في الصورة ، يتم تدريب شبكة الباحثين من نموذج يعكس التمثيل الداخلي للدماغ لما يمكن للمشاهد ذات الوجوه يبدو مثل.

وهكذا يتعلم نموذجهم عكس الخطوات التي يؤديها برنامج رسومات الكمبيوتر لإنشاء الوجوه. تبدأ برامج الرسومات هذه بتمثيل ثلاثي الأبعاد للوجه الفردي ثم تقوم بتحويله إلى صورة ثنائية الأبعاد ، كما يظهر من وجهة نظر معينة. يمكن وضع هذه الصور على صورة خلفية تعسفية. يفترض الباحثون أن النظام البصري للمخ قد يفعل شيئًا مماثلاً عندما تحلم أو تستحضر صورة ذهنية لوجه شخص ما.

قام الباحثون بتدريب شبكتهم العصبية العميقة على تنفيذ هذه الخطوات في الاتجاه المعاكس - أي أنها تبدأ بالصورة ثنائية الأبعاد ثم تضيف ميزات مثل الملمس والانحناء والإضاءة لإنشاء ما يسميه الباحثون تمثيل "2D". تحدد هذه الصور 2.5D شكل ولون الوجه من وجهة نظر معينة. ثم يتم تحويلها إلى تمثيلات ثلاثية الأبعاد ، والتي لا تعتمد على وجهة النظر.

"يقدم النموذج حسابًا على مستوى الأنظمة لمعالجة الوجوه في المخ ، مما يسمح له برؤية صورة والوصول في النهاية إلى كائن ثلاثي الأبعاد ، يتضمن تمثيلًا للشكل والملمس ، من خلال هذه المرحلة الوسيطة الهامة لصورة 3D يقول يلدريم.

أداء النموذج

وجد الباحثون أن نموذجهم يتوافق مع البيانات التي تم الحصول عليها من خلال دراسة مناطق معينة في أدمغة قرود المكاك. في دراسة نشرت في عام 2010 ، سجل فريوالد ودوريس تساو من معهد كاليفورنيا للتكنولوجيا نشاط الخلايا العصبية في تلك المناطق وقاموا بتحليل كيفية تجاوبهم مع 25 وجهًا مختلفًا ، من سبع وجهات نظر مختلفة. كشفت تلك الدراسة عن ثلاث مراحل من معالجة الوجه ذات المستوى الأعلى ، والتي يفترض فريق MIT الآن أنها تتوافق مع ثلاث مراحل من نموذج الرسومات العكسي: وهي مرحلة تعتمد على وجهة نظر 2.5D تقريبًا ؛ مرحلة تجسر من 2.5 إلى 3D ؛ ومرحلة عرض ثلاثية الأبعاد ثابتة لتمثيل الوجه.

يقول تيننباوم: "ما نظهره هو أن خصائص الاستجابة الكمية والنوعية لتلك المستويات الثلاثة من الدماغ تبدو مناسبة بشكل جيد مع المستويات الثلاثة العليا للشبكة التي بنيناها".

قارن الباحثون أيضًا أداء النموذج بأداء البشر في مهمة تنطوي على التعرف على الوجوه من وجهات نظر مختلفة. تصبح هذه المهمة أكثر صعوبة عندما يقوم الباحثون بتغيير الوجوه عن طريق إزالة نسيج الوجه مع الحفاظ على شكله ، أو تشويه الشكل مع الحفاظ على النسيج النسبي. كان أداء النموذج الجديد مشابهًا لأداء البشر أكثر من أداء نماذج الكمبيوتر المستخدمة في أحدث برامج التعرف على الوجوه ، وهذا دليل إضافي على أن هذا النموذج قد يكون أقرب إلى محاكاة ما يحدث في النظام البصري البشري.

"هذا العمل مثير لأنه يقدم مراحل قابلة للتفسير من التمثيل المتوسط ​​في نموذج الشبكة العصبية المغذي للتعرف على الوجوه" ، كما يقول نيكولاس كريجيسكورتي ، المحترف
r من علم النفس وعلم الأعصاب في جامعة كولومبيا ، الذي لم يشارك في البحث. "يدمج نهجهم الفكرة الكلاسيكية القائلة بأن الرؤية تعكس نموذجًا لكيفية إنشاء الصورة ، مع شبكات التغذية العميقة الحديثة. من المثير للاهتمام أن هذا النموذج يشرح بشكل أفضل التمثيلات العصبية والاستجابات السلوكية ".

يخطط الباحثون الآن لمواصلة اختبار أسلوب النمذجة على صور إضافية ، بما في ذلك الكائنات غير الوجوه ، لاستكشاف ما إذا كانت الرسومات العكسية قد تشرح أيضًا كيف يدرك الدماغ أنواعًا أخرى من المشاهد. بالإضافة إلى ذلك ، يعتقدون أن تكييف هذا النهج مع رؤية الكمبيوتر يمكن أن يؤدي إلى تحسين أداء أنظمة الذكاء الاصطناعي.

يقول تيننباوم: "إذا استطعنا أن نظهر أدلة على أن هذه النماذج قد تتوافق مع كيفية عمل الدماغ ، فإن هذا العمل يمكن أن يدفع الباحثين في رؤية الكمبيوتر إلى أن يأخذوا بجدية أكبر ويستثمروا المزيد من الموارد الهندسية في نهج الرسومات العكسية هذا للتصور". "لا يزال المخ هو المعيار الذهبي لأي نوع من الآلات التي ترى العالم غنيًا وبسرعة."

تم تمويل البحث من قبل مركز العقول والعقول والآلات في معهد ماساتشوستس للتكنولوجيا ، والمؤسسة الوطنية للعلوم ، والمعهد الوطني للعيون ، ومكتب البحوث البحرية ، ومؤسسة نيويورك للخلايا الجذعية ، ومعهد أبحاث تويوتا ، وميتسوبيشي إلكتريك.


المواضيع: أبحاث, رؤية الحاسوب, علوم المخ والمعرفة, مركز العقول والآلات العقليه, مختبر علوم الحاسوب والذكاء الاصطناعي (كسيل), كلية العلوم, كلية الهندسة, مؤسسة العلوم الوطنية (NSF), الذكاء الاصطناعي, تعلم الآلة, علم الأعصاب

المصدر: http://news.mit.edu/2020/computer-model-brain-vision-0304

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة