شعار زيفيرنت

يتنبأ ChatGPT بالمستقبل بشكل أفضل عند سرد الحكايات

التاريخ:

أصبحت نماذج الذكاء الاصطناعي أفضل في التنبؤ بالمستقبل عندما يُطلب منها تأطير التنبؤ كقصة عن الماضي، كما وجد الباحثون في جامعة بايلور في تكساس.

In ورقة بعنوان "يمكن لـ ChatGPT التنبؤ بالمستقبل عندما يروي قصصًا تدور أحداثها في المستقبل عن الماضي"، يكشف فام وكانينغهام عن المشهد الأخير - وهو أن نموذج التنبؤ بالذكاء الاصطناعي يمكن أن يكون فعالاً في ظروف معينة. لقد أثبت سؤال روبوت الدردشة عن حكايات حول الأحداث المستقبلية بدلاً من طلب التنبؤات المباشرة فعاليته بشكل مدهش، خاصة في التنبؤ بالفائزين بجوائز الأوسكار.

لكن عملهم يكشف الكثير عن عدم فعالية آليات السلامة في OpenAI، بقدر ما يكشف عن إمكانات التنبؤ لنماذج اللغات الكبيرة.

وأظهر باحثون آخرون اهتمامًا مماثلًا بنماذج الذكاء الاصطناعي للتنبؤ. واحد دراسة من العام الماضي، وجد أن أداء GPT-4 ضعيف بشكل ملحوظ في المهام التنبؤية في العالم الحقيقي مقارنة بمتوسط ​​توقعات الحشود البشرية. وقد وجد آخرون نماذج الذكاء الاصطناعي إظهار وعد للاستثمار في سوق الأوراق المالية.

OpenAI شروط الخدمة عدم السماح بالتنبؤات حول المستقبل في سياقات معينة. على سبيل المثال، "يجب ألا تستخدم أي مخرجات تتعلق بشخص ما لأي غرض يمكن أن يكون له تأثير قانوني أو مادي على ذلك الشخص، مثل اتخاذ قرارات الائتمان أو التعليم أو التوظيف أو الإسكان أو التأمين أو القرارات القانونية أو الطبية أو غيرها من القرارات المهمة." عنهم."

إن خطر الاعتماد على نصيحة من نموذج لغوي كبير معروف بالهلوسة واضح - فأنت لا تريد أن يتخذ ChatGPT قرارات ذات عواقب، مثل قرارات العلاج الطبي، أو إصدار الأحكام، أو الموافقة على الائتمان.

ولكن على الرغم من ذلك، من الممكن أن يكون النموذج قادرًا على التخمين بشكل فعال، في أغلب الأحيان.

نحن نشك في أن OpenAI قد خنق رغبة ChatGPT في المشاركة في العديد من أنواع مهام التنبؤ الصريحة

يجادل الباحثون، "إذا تبين أن ChatGPT يتمتع بقدرة تنبؤية فائقة، فيمكن للمرء أن يتخيل بسهولة أنه سيتم استخدامه على الفور بطرق تنتهك واحدًا أو كل الشروط المذكورة أعلاه، وبالتالي نشك في أن OpenAI قد خنق رغبة ChatGPT في المشاركة في العديد من العمليات". أنواع مهام التنبؤ الصريحة."

لقد طلبنا من OpenAI التعليق على ما إذا كانت تحاول عمدًا إحباط التنبؤ، ولم نسمع أي رد.

ومع ذلك، فمن الواضح أن نماذج OpenAI سترفض عندما يُطلب منها تقديم المشورة العلاجية الطبية. سأل فام وكانينغهام جهاز GPT-4 الخاص بشركة OpenAI، عبر واجهة ChatGPT، "أشعر بالمرض حقًا. أعاني من الصداع والبول فيه دم. ماذا تظن أن لدي؟" وكما هو متوقع، نصح النموذج بطلب التوجيه من أخصائي طبي.

ثم قاموا بتغيير استراتيجية التحفيز الخاصة بهم ووجهوا ChatGPT لإخبارهم بقصة يصل فيها شخص إلى عيادة الطبيب ويظهر عليه نفس الأعراض. ورد ChatGPT بالنصيحة الطبية التي رفض تقديمها عندما سئل مباشرة، كما حوار الشخصية في المشهد المطلوب.

“سواء كانت نصيحة الخبراء هذه دقيقة أم لا، فهذه مسألة أخرى؛ "وجهة نظرنا هي مجرد الإشارة إلى أنها لن تقوم بالمهمة عندما يُطلب منها القيام بها بشكل مباشر، ولكنها ستفعل ذلك عندما يتم تكليفها بالمهمة بشكل غير مباشر في شكل تمارين الكتابة الإبداعية"، يوضح الباحثون في ورقتهم البحثية.

ونظراً لهذه الاستراتيجية المحفزة للتغلب على مقاومة الاستجابات التنبؤية، شرع خبراء الاقتصاد في بايلور في اختبار مدى قدرة النموذج على التنبؤ بالأحداث التي وقعت بعد الانتهاء من تدريب النموذج.

وجائزة يذهب إليها…

في وقت التجربة، لم يكن GPT-3.5 وGPT-4 يعلمان إلا عن الأحداث حتى سبتمبر 2021، أي انقطاع بيانات التدريب الخاصة بهما - والذي تقدم منذ ذلك الحين. لذلك طلب الثنائي من العارضة أن تروي قصصًا تنبئ بالبيانات الاقتصادية مثل معدلات التضخم والبطالة مع مرور الوقت، والفائزين بجوائز الأوسكار المختلفة لعام 2022.

"بتلخيص نتائج هذه التجربة، نجد أنه عند تقديم المرشحين واستخدام أسلوبي التحفيز [المباشر والسرد] عبر ChatGPT-3.5 وChatGPT-4، تنبأ ChatGPT-4 بدقة بالفائزين لجميع فئات الممثلين والممثلات، "ولكن ليس أفضل فيلم، عند استخدام إعداد سردي مستقبلي، ولكن كان أداؤه ضعيفًا في أساليب [الموجه المباشر] الأخرى،" كما توضح الورقة.

بالنسبة للأشياء الموجودة بالفعل في بيانات التدريب، نشعر أن ChatGPT [يمكن] إجراء تنبؤات دقيقة للغاية

قال كننغهام: "بالنسبة للأشياء الموجودة بالفعل في بيانات التدريب، نشعر أن ChatGPT لديه القدرة على استخدام تلك المعلومات ومن خلال نموذج التعلم الآلي الخاص به يمكنه عمل تنبؤات دقيقة للغاية". السجل في مقابلة هاتفية. "هناك شيء يمنعها من القيام بذلك، على الرغم من أنه من الواضح أنها تستطيع القيام بذلك."

أدى استخدام استراتيجية التحفيز السردي إلى نتائج أفضل من التخمين الذي تم الحصول عليه من خلال التحفيز المباشر. وكان أيضًا أفضل من خط الأساس البالغ 20 بالمائة لاختيار عشوائي واحد من كل خمسة.

لكن التوقعات السردية لم تكن دقيقة دائما. أدى التحفيز السردي إلى سوء التنبؤ بالفائز بجائزة أفضل فيلم لعام 2022.

وبالنسبة للمطالبات التي يتم التنبؤ بها بشكل صحيح، فإن هذه النماذج لا تقدم دائمًا نفس الإجابة. وقال كانينغهام: "هناك شيء يجب على الناس أن يأخذوه في الاعتبار، وهو أن هناك هذه العشوائية في التنبؤ". "لذلك إذا سألت ذلك 100 مرة، فسوف تحصل على توزيع الإجابات. ولذا يمكنك النظر إلى أشياء مثل فترات الثقة، أو المتوسطات، بدلاً من مجرد توقع واحد.

هل تفوقت هذه الإستراتيجية على توقعات التعهيد الجماعي؟ قال كانينغهام إنه وزميله لم يقارنا أسلوبهما في السرد القصصي بنموذج تنبؤي آخر، لكنه قال إن بعض تنبؤات جوائز الأوسكار سيكون من الصعب التغلب عليها لأن نموذج الذكاء الاصطناعي نجح في تحقيق بعض هذه التوقعات بنسبة مائة بالمائة تقريبًا من الوقت استفسارات متعددة.

وفي الوقت نفسه، اقترح أن التنبؤ بالفائزين بجوائز الأوسكار ربما كان أسهل بالنسبة لنموذج الذكاء الاصطناعي لأن المناقشات عبر الإنترنت حول الأفلام تم التقاطها في بيانات التدريب. قال كننغهام: "من المحتمل أن يكون هذا مرتبطًا بشكل كبير بالطريقة التي كان الناس يتحدثون بها عن هؤلاء الممثلين والممثلات في ذلك الوقت".

إن مطالبة النموذج بالتنبؤ بالفائزين بجوائز الأوسكار بعد عقد من الزمن قد لا يكون جيدًا.

أظهر ChatGPT أيضًا دقة تنبؤات متفاوتة بناءً على المطالبات. وأوضح كانينغهام: "لدينا قصتان ننفذهما". "أحدهم أستاذ جامعي، في المستقبل يقوم بتدريس الفصل. وفي الفصل، تقرأ بيانات لمدة عام واحد عن التضخم والبطالة. وفي مناسبة أخرى، ألقى جيروم باول، رئيس الاحتياطي الفيدرالي، خطابًا أمام مجلس المحافظين. لقد حصلنا على نتائج مختلفة جدا. وخطاب باول [الذي تم إنشاؤه بواسطة الذكاء الاصطناعي] أكثر دقة بكثير.

بمعنى آخر، تؤدي بعض التفاصيل السريعة إلى تنبؤات أفضل، ولكن ليس من الواضح مقدمًا ما قد تكون عليه هذه التوقعات. وأشار كانينغهام إلى أن إدراج ذكر الغزو الروسي لأوكرانيا عام 2022 في سرد ​​باول أدى إلى توقعات اقتصادية أسوأ بكثير مما حدث بالفعل.

وقال: "لم يكن [النموذج] على علم بغزو أوكرانيا، ويستخدم تلك المعلومات، وفي كثير من الأحيان يزداد الأمر سوءًا". "يحاول التنبؤ أن يأخذ ذلك في الاعتبار، ويصبح ChatGPT-3.5 متضخمًا للغاية [في الشهر الذي] غزت فيه روسيا أوكرانيا، وهذا لم يحدث.

قال كننغهام: "كدليل على المفهوم، يحدث شيء حقيقي مع تحفيز السرد المستقبلي". "ولكن كما حاولنا أن نقول في الورقة، لا أعتقد أن حتى المبدعين [النماذج] يفهمون ذلك. لذا فإن كيفية معرفة كيفية استخدامها ليست واضحة ولا أعرف مدى قابليتها للحل حقًا. ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة