استكشاف الإبداع في نماذج اللغات الكبيرة: من GPT-2 إلى GPT-4

نماذج اللغات الكبيرة

الإبداع كما تصوره Midjourney. تم إنشاؤها بواسطة المؤلف

تم نشر هذه المقالة في الأصل على المؤلف مدونة وإعادة النشر إلى TOPBOTS بإذن من المؤلف.

في الأسابيع الأخيرة ، استخدم الأشخاص نماذج لغة كبيرة (LLMs) لإنشاء مجموعة متنوعة من المحتوى الإبداعي ، مثل الكتب, خيال فلاش, معارك الرابو الحبال الموسيقية. لكن هل من الممكن قياس مستوى العملية الإبداعية بشكل أوسع في هذه النماذج؟

لطالما فتن الإبداع البشري علماء النفس والباحثين. ابتداء من التسعينيات، أنشأ الباحثون سلسلة من الاختبارات لمقارنة الأداء الإبداعي وإمكانات الأفراد. في حين أنه لا يوجد اختبار واحد يمكنه التقاط الإبداع بشكل كامل ، فقد حاولت هذه الاختبارات قياس وتحديد جوانب مختلفة منه.

في هذه المقالة ، أقوم بتحليل أداء نماذج GPT من 2019 إلى 2023 في الاختبارات التي تقيس نوعين من الإبداع: متقارب (يوجد حل واحد صحيح) ومتشعب (مفتوح ؛ قد توجد حلول متعددة) [1]. تشمل الاختبارات:

من خلال هذه التحليلات ، أركز على التغيير في الأداء من نموذج GPT-2 السابق وصولاً إلى أحدث طراز GPT-4. أستخدم كلاً من العدسة الذاتية والموضوعية لفهم سلوك هذه النماذج. بشكل عام ، تميل النماذج اللاحقة إلى الأداء بشكل أفضل في جميع مهام الإبداع ، على الرغم من أنني أجد بعض الاستثناءات حيث ، عندما يكون الاختبار يحتوي على إجابة "صحيحة" ، فإن نموذج GPT-2 الأبسط يتفوق في الأداء على نموذج GPT4 الأحدث. عندما يكون ذلك ممكنًا ، أقارن نماذج GPT بالأداء البشري في نفس اختبارات الإبداع.

ملاحظة: لا تهدف هذه التجارب إلى قياس مدى إبداع النماذج ، بل إلى قياس مستوى العملية الإبداعية الموجودة في أجيال النموذج. أنا لا أدعي أن نماذج GPT ، أو LLM بشكل عام ، تمتلك تفكيرًا إبداعيًا بنفس الطريقة التي يمتلكها البشر. بدلاً من ذلك ، أهدف إلى إظهار كيفية استجابة النماذج لمقاييس معينة للعمليات الإبداعية.

تطور نماذج GPT

نماذج المحولات المُدرَّبة مسبقًا (GPT) هي نماذج لغوية مُدرَّبة على أجزاء شاسعة من الإنترنت للتنبؤ بالرمز المميز التالي استنادًا إلى الرموز المميزة السابقة. في حين أن ChatGPT الأخيرة قد استحوذت على انتباه الجمهور في الأشهر القليلة الماضية ، فإن نماذج GPT الخاصة بـ OpenAI (والتقنيات الكامنة وراء النماذج) كانت موجودة منذ بضع سنوات.

بالنسبة لجميع التجارب في هذه المقالة ، ما لم يُذكر خلاف ذلك ، اتصلت بكل نموذج GPT خمس مرات لكل مطالبة فريدة لحساب العشوائية في أجيالها.

1. اختبار Associates عن بُعد: توصيل كلمات غير ذات صلة

اختبار Remote Associates (RAT) هو اختبار إبداعي طورته مارثا ميدنيك في عام 1962 [2]. يقيس هذا الاختبار التفكير المتقارب ، وهذا يعني ذلك كل سؤال له إجابة "صحيحة".

بالنظر إلى ثلاث كلمات تبدو غير مرتبطة ، يجب على المتقدم للاختبار إيجاد كلمة رابعة تربط بين الكلمات الثلاث. على سبيل المثال ، يمكن ربط الكلمات "حلم" و "كسر" و "نور" بكلمة "يوم" (أحلام اليقظة ، والفجر ، وضوء النهار). يمكن ربط الكلمات "بمعنى" و "مجاملة" و "مكان" بكلمة "عام".

جمعت كلمة ثلاثة توائم من موقع ويب Remote Associates Test. كان هناك ما مجموعه 312 سؤالا. تم تصنيف صعوبة كل سؤال على مقياس من السهل جدًا إلى الصعب جدًا.

نماذج اللغات الكبيرة — تفصيل أسئلة اختبار الارتباط العشوائي المأخوذة من اختبار الموقع.

لكل نموذج وكل ثلاثة كلمات ، استخدمت قالب المطالبة التالي. اتصلت بكل نموذج 5 مرات لحساب العشوائية.

لقد أعطيت ثلاث كلمات. فكر في كلمة رابعة مرتبطة بطريقة ما بكل كلمة من الكلمات الثلاث الأولى. أولاً ، أعط الجواب ("الجواب") ثم اشرح أسبابك ("السبب").

لقد أعطيت ثلاث كلمات. فكر في كلمة رابعة مرتبطة بطريقة ما بكل كلمة من الكلمات الثلاث الأولى. أعط أولاً الإجابة ("الإجابة") ثم اشرح أسبابك ("السبب"). الكلمات: {Word1} ، {Word2} ، {Word3}

حصلت طرز GPT الأحدث على درجات أعلى في الارتباط عن بُعد

لقد حسبت النسبة المئوية الإجمالية للأسئلة التي أنشأها كل نموذج GPT إجابة صحيحة لها. قد لا يكون مفاجئًا أنه كلما كان النموذج أحدث ، زادت الإجابات الصحيحة التي تم إنشاؤها.

أظهر تقسيم أداء النموذج حسب مستوى صعوبة السؤال اتجاهًا مشابهًا: كان أداء نماذج GPT الأحدث أفضل من النماذج القديمة في كل مستوى صعوبة. وبينما كان أداء نماذج GPT الأحدث أفضل من النماذج القديمة في الأسئلة الصعبة ، فإن التحسن كان أقل حدة مقارنة بالأسئلة السهلة. هذا يعني ذاك حتى GPT-4 كافح مع الأسئلة الصعبة.

وفقًا لموقع Remote Associates Test على الويب ، "يمكن لأي شخص عادي حل معظم العناصر التي تم تمييزها على أنها سهلة ، وحوالي نصف العناصر المتوسطة ، وقليل من العناصر الصعبة." لم تكن هناك إحصائيات رسمية تمت مشاركتها على الموقع ، ولكن نظرة سريعة ستظهر أن GPT-4 قد حل بالفعل حوالي نصف المتوسطات وقليلًا من العناصر الصعبة ، مما يجعله النموذج الوحيد الذي يمكن مقارنته تقريبًا بالمستوى البشري. كانت نماذج GPT الأخرى أسوأ من الأداء البشري.

إذا كان هذا المحتوى التعليمي التفصيلي مفيدًا لك ، اشترك في قائمتنا البريدية AI ليتم تنبيهنا عندما نصدر مادة جديدة.

بعض الاستثناءات: عندما يصحح GPT-2 لكن GPT-4 يخطئ

على الرغم من أن هذا لم يحدث كثيرًا ، فقد كانت هناك بعض الأسئلة التي تمكن نموذج GPT-2 الأكثر بدائية من عام 2019 من توليد الإجابة الصحيحة ولكن نموذج GPT-4 من عام 2023 لم يكن قادرًا على ذلك. في الواقع ، كان هناك ثمانية أسئلة من هذا القبيل. (القائمة الكاملة معروضة في الملحق في نهاية المقال).

سؤال سهل

الكلمات: كوخ / طوب / كيك
GPT-2: "جبن" [إجابة صحيحة]
GPT-4: "طبقة"

سؤال متوسط

الكلمات: قطة / رقم / هاتف
GPT-2: "اتصال"
GPT-4: "طلب"

سؤال صعب

الكلمات: طريق / قرص / طريق
GPT-2: "محرك" [صحيح]
GPT-4: "دائرة"

سؤال صعب جدا

الكلمات: أرض / يد / بيت
GPT-2: "مزرعة" [صحيح]
GPT-4: "خاصية"

لاحظ أنه بالنسبة لجميع هذه الأسئلة ، فإن إجابات GPT-4 هي ليس غير منطقى. في الواقع ، بدون معرفة الإجابة الصحيحة مسبقًا ، قد تفترض أن إجابة GPT-4 يمكن أن تربط الكلمات الثلاث على الأرجح. إذا كنت تفكر في ذلك ، فأنت لست مخطئًا. سأتناول هذا في القسم التالي.

هل كان GPT-4 خاطئًا أم مجرد التفكير خارج الصندوق؟

أجاب GPT-4 على أكثر من نصف الأسئلة بشكل غير صحيح ، ولكن ربما لسبب وجيه. طلبت من GPT-4 شرح كل إجابة من إجاباتها. بعد ذلك ، نظرت في تفسيراتها لبعض الأسئلة "الصعبة جدًا" التي أخطأت فيها.

الكلمات: فنان / فتحة / طريق

الإجابة الصحيحة: "الهروب"
إجابة GPT-4: "خريطة"

قد تعيد كلمة "فنان" إلى الذهن فكرة إنشاء شيء ما ، وربما حتى تمثيل مرئي لشيء ما. الخرائط هي شكل شائع من أشكال التمثيل المرئي الذي يتطلب درجة من المهارة الفنية للإنشاء. يمكن أن تشير كلمة "فتحة" إلى فعل فتح شيء ما أو إحضار شيء إلى الوجود. الخريطة هي نوع من المخطط أو الخطة ، وغالبًا ما تستخدم للتنقل في منطقة جديدة أو تخطيط مسار عمل. ترتبط كلمة "الطريق" بالاتجاه والحركة ، والتي يمكن رسمها وتتبعها على الخريطة. يمكن أن تساعدك الخريطة في تحديد أفضل طريق تسلكه عند السفر ، ويمكنها أيضًا توفير معلومات حول الطرق التي سلكها الآخرون في الماضي. بشكل عام ، يبدو أن "الخريطة" هي كلمة تتناسب تمامًا مع كل كلمة من الكلمات الأولية الثلاث ، لأنها تلخص أفكار الإبداع الفني ، والتخطيط والتوجيه ، والحركة والملاحة.

إن تفسير GPT-4 لسبب كون "الخريطة" كلمة جيدة لربطها بـ "فنان / فتحة / مسار" مقنع.

هنا مثال آخر:

الكلمات: شوكة / ظلام / رجل

الإجابة الصحيحة: "الملعب"
إجابة GPT-4: "الظل"

يمكن ربط كلمة "fork" بالتقسيم أو التفرع ، مثل مفترق الطريق. يمكن أيضًا اعتبار الظلال نوعًا من التقسيم ، لأنها تمثل غياب الضوء. كلمة "الظلام" تشير إلى غياب الضوء. يتم إنشاء الظلال عندما يحجب كائن ما الضوء ، ويمكن أن تظهر غالبًا أغمق من المنطقة المحيطة. يمكن ربط كلمة "رجل" بمفهوم الهوية أو الفردية. يمكن أيضًا استخدام الظلال لتمثيل هوية الشخص ، حيث يمكنها تقديم أدلة حول شكلها وحجمها. لذلك ، يبدو أن "الظل" كلمة تتناسب جيدًا مع كل كلمة من الكلمات الثلاث الأولية ، حيث إنها تلخص أفكار الانقسام والغياب والهوية.

تُظهر هذه الأمثلة مأزق اختبار Remote Associates واختبارات الإبداع المتقارب بشكل عام - أي عندما لا تكون الإجابة "الصحيحة" هي الإجابة "الصحيحة" الوحيدة. في هذه الحالات ، أوجد GPT-4 إجابة كانت "خاطئة" ، ولكن فقط لأنها لم تتوافق مع الإجابة "الصحيحة" التقليدية.

في الواقع ، إذا طلبت من GPT-4 تبادل الأفكار حول خيارات متعددة لكلمة رابعة لثلاثية من الكلمات ، فإنها قادرة على إعطائي خيارات متعددة بإجابات مقنعة.

ولدت إجابات GPT-4 بشكل تعسفي ثلاث كلمات

من الممكن أن تكون نماذج GPT قد شاهدت بعض أسئلة اختبار Remote Associates المذكورة أعلاه في بيانات التدريب الخاصة بهم. كيف ستستجيب GPT-4 لمجموعة ثلاثية من الكلمات تم إنشاؤها بشكل عشوائي؟ في هذا القسم ، أقوم بإنشاء اختبار "الارتباط عن بُعد" الخاص بي وتقييم المخرجات بشكل شخصي.

أخذت قائمة 10,000 كلمة إنجليزية شائعة [3] ثم أخذت عينات عشوائية من ثلاث كلمات من هذه القائمة وجعلت GPT-4 تقدم كلمة رابعة تربط هذه الكلمات معًا. كانت بعض التركيبات المكونة من ثلاث كلمات غريبة تمامًا وغير مرتبطة ، لكن GPT-4 وجدت دائمًا طريقة لربطها معًا. أنا أشجع القارئ على تجربة هذه أولاً قبل قراءة أجيال GPT-4!

بعد عرض الأمثلة القليلة التالية ، يمكنك اتخاذ قرارك - هل يفكر GPT-4 خارج الصندوق؟ أم أنها مجرد تأليف للأحذية لإجاباتها؟ (يتم عرض قائمة أطول من الأمثلة في الملحق في نهاية المقالة).

🇧🇷 صحة الإنسان

قراءة هذا الرد على أنه مقنع تماما. لقد وجدت أنه من المثير للاهتمام أن تعريف "المراقبة الصحية" تم نسخه حرفيًا تقريبًا من موقع CDC على مقدمة في مراقبة الصحة العامة.

ترصد الصحة العامة هو "جمع وتحليل وتفسير مستمر ومنهجي للبيانات المتعلقة بالصحة الضرورية لتخطيط وتنفيذ وتقييم ممارسة الصحة العامة." - علم الأوبئة الميداني (من موقع CDC)

الكلمات: النظام الغذائي / المراقبة / المولود الجواب: السبب الصحي: 1. النظام الغذائي - يرتبط النظام الغذائي للشخص ارتباطًا مباشرًا بصحته ، حيث يمكن أن يؤثر على صحته العامة ، ومستويات الطاقة ، وخطر الإصابة بأمراض معينة. 2. المراقبة - المراقبة الصحية هي عملية جمع وتحليل وتفسير مستمر ومنهجي للبيانات الضرورية لتخطيط وتنفيذ وتقييم الممارسات الصحية. 3. الولادة - عندما يولد الشخص ، تكون صحته ذات أهمية قصوى ، حيث يمكن أن يكون لها آثار طويلة الأمد على نموهم ونموهم ونوعية حياتهم بشكل عام.

🍀 البرسيم

لقد اقتنعت في البداية بإجابة GPT-4 - في الواقع ، شعرت بذكاء شديد. كان هذا حتى أجريت بحثًا سريعًا على Google واكتشفت أن Trifolium duodecim ليس حقيقيًا. هذا مثال على الهلوسة ، وهي ظاهرة شائعة تشكل فيها LLM إجابة غير صحيحة من الناحية الواقعية.

الكلمات: محظوظ / حقل / اثنا عشر الإجابة: البرسيم السبب: 1. محظوظ - البرسيم ذو الأربع أوراق يعتبر رمزًا لحسن الحظ. 2. الحقل - البرسيم نباتات يمكن العثور عليها بشكل شائع تنمو في الحقول. 3. اثنا عشر - هناك مجموعة متنوعة من البرسيم المعروفة باسم "Trifolium duodecim" (اثني عشر ورقة برسيم) ، والتي تحتوي على 12 ورقة.

☕️ ستاربكس

كان هذا المثال هو الإجابة المفضلة لدي ، بينما كنت أفكر خارج الصندوق ، شعرت وكأنه نوع من الامتداد. وكان الأمر مضحكًا بعض الشيء (خاصة الجزء المتعلق باتريك).

الكلمات: grande / cognitive / patrick الإجابة: Starbucks السبب: 1. Grande: تستخدم Starbucks مصطلح "grande" للإشارة إلى أحد المشروبات متوسطة الحجم. 2. الإدراك: ستاربكس مكان شهير يذهب إليه الناس للاسترخاء والدراسة والعمل ، وهي جميع الأنشطة التي تتطلب وظيفة معرفية. 3. باتريك: باتريك ديمبسي ، الممثل الذي لعب دور الدكتور ديريك شبرد في البرنامج التلفزيوني غريز أناتومي ، معروف بحبه للقهوة ولقب "مكدريمي". ستاربكس هو مقهى مشهور ، لذلك من المحتمل أن تكون شخصيته قد ترددت على ستاربكس.

توضح هذه الأمثلة والتحليلات أن اختبارات الإبداع بإجابة واحدة صحيحة قد تكون محدودة. تم تناول هذا القيد في الاختبارات الأخرى التي تم استكشافها في هذه المقالة في الأقسام التالية.

2. مهمة الاستخدامات البديلة: إيجاد المعنى في العناصر العادية

اختبار شائع آخر لقياس الإبداع هو مهمة الاستخدامات البديلة (AUT) ، التي أنشأتها جيه بي جيلفورد في عام 1967. على عكس اختبار الاقترانات البعيدة ، يقيس هذا الاختبار التفكير التباعدي ، مما يعني أن هناك لا إجابة صحيحة.

يُطلب من المتقدم للاختبار إنتاج أكبر عدد ممكن من الاستخدامات الأصلية للعنصر اليومي. على سبيل المثال ، يمكن استخدام "كمبيوتر محمول" كـ "لوحة" أو "واقي للجسم" أو "لوحة جدارية" [4]. يتم قياس الردود على هذا الاختبار من حيث المقاييس مثل الأصالة (مدى اختلاف الاستخدامات) والمرونة (مجموعة متنوعة من الأفكار). الغرض من هذا الاختبار هو معرفة عدد الاستخدامات غير التقليدية التي يمكن لأي شخص التفكير فيها لجسم عادي.

ومع ذلك ، نظرًا لمواردي المحدودة ، لم يكن لدي القدرة على إنشاء هذه التدابير بدون المعلقين البشريين. لذلك ، استخدمت ملف وكيل للإبداع ، والذي استخدمه أيضًا باحثون من جامعة أمستردام في وضع إبداع GPT-3 في اختبار (الاستخدامات البديلة).

في هذه الورقة ، طلب الباحثون من كل من البشر و GPT-3 (davinci-002) التوصل إلى حالات استخدام بديلة للأشياء الشائعة التالية: شوكة ، وعلبة من الصفيح ، وكتاب. وكوكيل لقياس الإبداع ، قاموا بقياس المسافة الدلالية بين الكائن وحالات الاستخدام المُنشأة - أي ، ما مدى اختلاف كلمة حالة الاستخدام المُنشأة عن الكائن الأصلي؟

حصلت على ردود الإنسان من موقع مشروع الورقة للمقارنة مع الأداء البشري. لقد استخدمت الموجه التالي لنماذج GPT ، بناءً على مطالبة مماثلة مستخدمة في الورقة.

ابتكر 10 استخدامات إبداعية للعنصر التالي الذي قد يصيب الناس بالذكاء أو غير المعتاد أو مثير للاهتمام أو غير مألوف أو فكاهي أو مبتكر أو مختلف: {item}

مسافة جيب التمام بين الأعراس كوكيل للإبداع

في معالجة اللغة الطبيعية ، المسافة الدلالية (أو التشابه الدلالي) هو وكيل لمدى ارتباط كلمتين ، بناءً على عدد المرات التي يتم فيها استخدام الكلمات معًا في سياقات متشابهة. على سبيل المثال ، قد يكون للكلمتين "كمبيوتر" و "شاشة" مسافة دلالية أقصر ، لأنها غالبًا ما تستخدم في نفس السياقات ، في حين أن الكلمات "كمبيوتر" و "عدس" قد يكون لها مسافة دلالية أكبر ، لأنها ليست كذلك غالبًا ما تستخدم في نفس السياقات.

لحساب المسافة الدلالية لكلمتين ، استخدمت نفس النهج الذي استخدمه الباحثون في الورقة المذكورة أعلاه. اعتدت سبسي ("en_core_web_lg") ، مكتبة معالجة اللغة الطبيعية ، لحساب تضمين الكلمات للعنصر (مثل "كمبيوتر محمول") وكلمة حالة الاستخدام (مثل "لوحة"). بعد ذلك ، استخدمت مسافة جيب التمام بين طرفي الزفاف لحساب المسافة الدلالية.

بالنسبة لمهمة الاستخدامات البديلة ، مسافات دلالية أكبر مرتبطة بـ "أكثر إبداعًا" حالات استخدام للأشياء. أظهرت النتائج أنه بالنسبة للأجسام الثلاثة (شوكة ، علبة قصدير ، وكتاب) ، أدى الأداء البشري بشكل موثوق إلى مسافات جيب التمام (وبالتالي الاختلاف الدلالي العالي) مقارنةً بـ GPT-3. ومع ذلك ، كانت هناك حالات تطابق فيها GPT-3.5 و / أو GPT-4 أو تجاوزت درجات المسافة الدلالية للإبداع البشري.

بينما يميل البشر إلى ابتكار حالات استخدام أكثر إبداعًا من GPT-3 (باستخدام المسافة الدلالية ، كما تم حسابها من خلال مسافة جيب التمام ، كبديل للإبداع) ، كان GPT-4 أكثر مساواة مع المستوى البشري. أي أن GPT-4 استجابت بعناصر أدت إلى مسافات دلالية أكبر بالعنصر الأصلي ، بمستوى مماثل للأداء البشري. ومع ذلك ، بدون قيام البشر الفعليين بتعليق وتحديد المزيد من الفئات الذاتية مثل الأصالة والمرونة والفائدة ، فإن هذا التحديد الكمي باستخدام مسافة جيب التمام محدود لأنه يقيس جزءًا صغيرًا فقط من المخرجات الإبداعية لنماذج GPT.

هل يمكنك التمييز بين حالات الاستخدام الناتجة عن الأنشطة البشرية مقابل حالات الاستخدام الناتجة عن الذكاء الاصطناعي؟

تعرض إحدى القوائم حالات الاستخدام البديلة التي أنشأها الإنسان لعلبة من الصفيح بينما تعرض الأخرى حالات استخدام بديلة تم إنشاؤها بواسطة GPT-4. هل يمكنك اخباري بالفرق؟ الجواب في النهاية.

القائمة 1: استخدامات علب الصفيح

كمرآة
لصناعة الألعاب
كالفن
كتذكير لآندي وارهول
كحلقة رئيسية مع مقطع من العلبة
كمجوهرات

القائمة 2: استخدامات علب الصفيح

مجموعة طبل مصغرة
وعاء نبات ملتوي
قاطع ملفات تعريف الارتباط المرتجل
موقد المخيم محلي الصنع
تتناغم الرياح غريب الاطوار
حديقة عشب مصغرة

يقيس الاختبار التالي في القسم التالي أيضًا التفكير التباعدي.

3. مهمة الرابطة المتباينة: عشر كلمات ، لا اتصالات

اختبار الإبداع الثالث هو مهمة الرابطة المتباينة (DAT) ، التي تم إنشاؤها مؤخرًا في عام 2021 من قبل مجموعة من الباحثين [5]. يتضمن هذا الاختبار تسمية عشرة أسماء تختلف عن بعضها البعض قدر الإمكان. هذا الاختبار ، كما يتضح من اسمه ، متشعب وأيضًا ليس لديه إجابات صحيحة.

هناك نسخة من الاختبار عبر الإنترنت على هذا الموقع. يستغرق الأمر بضع دقائق فقط ، لأنه يتضمن الخروج بقائمة من عشرة أسماء غير مرتبطة قدر الإمكان. ها هي نتيجتي من الموقع:

درجة DAT.

كيف يتم احتساب النتيجة؟ يصف المؤلفون عمليتهم هنا. يتم احتساب درجة DAT باستخدام حفلات الزفاف وجيب التمام. أقوم بتكييف عمليتهم لحساب النتيجة [6]:

احسب الشحن قفاز حفلات الزفاف لكل كلمة
احسب مسافة جيب التمام بين كل زوج من الكلمات
خذ متوسط تلك القيمة

تشبه هذه العملية الطريقة المستخدمة لحساب درجة وكيل الإبداع في مهمة الاستخدامات البديلة ، مع الاختلاف الوحيد في كلمة نموذج التضمين المستخدمة.

مقارنة الاختلاف بين النماذج

يتم أخذ الموجه التالي ، الذي أستخدمه للمطالبة بنماذج GPT ، من ملف موقع DAT.

الرجاء إدخال 10 كلمات مختلفة قدر الإمكان عن بعضها البعض ، بكل معاني واستخدامات الكلمات. القواعد - كلمات واحدة فقط باللغة الإنجليزية. - الأسماء فقط (على سبيل المثال ، الأشياء ، الأشياء ، المفاهيم). - لا توجد أسماء علم (على سبيل المثال ، لا يوجد أشخاص أو أماكن محددة). - لا توجد مفردات متخصصة (على سبيل المثال ، لا توجد مصطلحات فنية). - فكر في الكلمات بنفسك (على سبيل المثال ، لا تنظر فقط إلى الأشياء الموجودة في محيطك).

لم أقم بتضمين GPT-2 في النتائج أدناه ، لأن المخرجات الناتجة عن GPT-2 كانت رطانة. (يمكنك مشاهدة مثال على ذلك في الملحق في نهاية المقالة).

تظهر النتائج أن درجة DAT زادت لكل نموذج جديد. هذا يعني أن النماذج اللاحقة كانت أفضل في توليد 10 كلمات مختلفة لغويًا عن بعضها البعض قدر الإمكان.

على سبيل المثال ، حصلت القائمة التالية التي تم إنشاؤها بواسطة GPT-3 على درجة 0.36:

الغسق ، الليل ، النهار ، الفجر ، الصباح ، العصر ، المساء ، منتصف الليل ، الشفق

من ناحية أخرى ، حصلت القائمة التالية التي تم إنشاؤها بواسطة GPT-4 على 0.95:

فيل ، مجهر ، قلعة رملية ، مجرة ، تناغم ، ملعقة ، نهر جليدي ، فلسفة ، دف ، جفاف

وفقًا تقديم ورقة اختبار DAT، تتراوح الدرجات عادة من 65 إلى 90 ، بمتوسط يتراوح بين 75 و 80. تعتبر الدرجة 95 عالية جدًا.

شيء يجب ملاحظته في الشكل أعلاه هو أن أشرطة الخطأ الخاصة بـ GPT-4 كانت أصغر بكثير من أشرطة الخطأ الخاصة بـ GPT-3. تصبح أهمية هذا أكثر وضوحًا في التجربة التالية ، حيث قمت بتغيير مقدار العشوائية في كل جيل من نماذج GPT عن طريق تعديل معلمة "درجة الحرارة".

درجة الحرارة هي قيمة تتراوح بين 0 و 1 ، حيث تكون القيم الأقرب إلى 0 هي الأكثر توقعًا و 1 هي الأكثر عشوائية. لقد جربت قيم درجة الحرارة بين 0.5 و 0.9 بزيادات قدرها 0.1 (في التجارب السابقة ، حافظت على درجة الحرارة عند 0.7 ، وهي القيمة الافتراضية). كنت أتوقع المزيد من التباين لقيم درجات حرارة أعلى ومزيد من الاتساق لدرجات الحرارة المنخفضة.

ومع ذلك ، أظهرت النتائج أن درجة الحرارة لم تكن مهمة بقدر أهمية النموذج من حيث تباين المسافة الدلالي. بالنسبة لـ GPT-3 ، على الرغم من درجة الحرارة ، اختلفت درجة DAT لكل قائمة من 10 كلمات اختلافًا كبيرًا. بينما ، من ناحية أخرى ، بالنسبة لـ GPT-4 ، على الرغم من درجة الحرارة ، ظلت درجة DAT متسقة بإحكام في نطاق صغير مع تباين ضئيل للغاية.

أصبحت الآثار المترتبة على ذلك أكثر وضوحًا بمجرد أن نظرت إلى النص الفعلي الذي يتم إنشاؤه بواسطة نماذج GPT الثلاثة. كان GPT-4 أقل تغيرًا في أجياله من GPT-3. بطريقة ما ، بدا الأمر وكأن GPT-4 يعرف بالفعل "الإجابة الصحيحة" لمهمة من المفترض ألا يكون لها إجابة صحيحة.

بتجميع الاستجابات لجميع درجات درجات الحرارة ، كان لديّ كل نموذج يقوم بإنشاء قائمة من 10 كلمات 50 مرة. بعد ذلك ، نظرت إلى كيفية ظهور الكلمات المختلفة الشائعة في جميع عمليات التشغيل الخمسين. لاحظ أن الكلمة الأكثر شيوعًا التي تم إنشاؤها بواسطة GPT-50 كانت الكتاب ، والتي ظهرت 3 مرة من 19 = 50٪. من ناحية أخرى ، كانت الكلمة الأكثر شيوعًا التي تم إنشاؤها بواسطة GPT-38 هي المجهر الذي ظهر 48/50 = 96٪ من الوقت.

هذا يؤكد صحة الادعاء بأن GPT-3 هو في الواقع أكثر تنوعًا في أجيال كلماته ، بينما لعبها GPT-4 بأمان من خلال توقع الكثير من الكلمات نفسها التي عرف أنها ستحرز درجات عالية في مهام "الكلمات المتنوعة" - كلمات مثل المجهر والبركان والفيل والمجرة.

يوضح هذا الاكتشاف كيف يبدو أن GPT-4 قد "كسر الشفرة" لتوليد ما تعتبره كلمات متنوعة. إذا كانت هذه هي الحالة ، فأنا لست متأكدًا مما إذا كان بإمكاني القول بثقة أن GPT-4 تكون مبدعة أكثر من أنها وصلت إلى المستوى المحلي الأمثل "لأفضل طريقة للعب هذه اللعبة المعينة."

وفي الختام

يمكننا تخيل مستقبل لا يمكن فيه تمييز استجابات GPT-3 واستجابات LLM التوليدية الأخرى عن البشر ، على الرغم من أن العملية الإبداعية ستكون مختلفة.
- من عند وضع إبداع GPT-3 في اختبار (الاستخدامات البديلة)

من الصعب قياس شيء معقد ومتعدد الأوجه بدقة مثل الإبداع باستخدام مجموعة محدودة من الاختبارات النصية. على الرغم من أن الاختبارات مثل اختبار المرئي عن بعد المنتسبين محاولة معالجة هذه المشكلة من خلال دمج عنصر مرئي ، لا تزال هناك قيود متأصلة لمثل هذه التقييمات. الاختبارات المتقاربة (مثل اختبار Remote Associates) ، التي لها "إجابة صحيحة" ، قد لا تكافئ دائمًا الحل الأكثر إبداعًا أو صحيحًا. من ناحية أخرى ، تعتمد الاختبارات المتباينة (مثل اختبار الرابطة المتباينة) ، التي لا تحتوي على إجابة صحيحة محددة ، على تضمين الكلمات غير الكاملة وقد تحتوي على تحيزات.

علاوة على ذلك ، يمكن أن يتأثر أداء نماذج GPT في هذه الاختبارات بتعرضها للمهام أثناء التدريب ، مما قد يؤدي إلى تداخل البيانات. على سبيل المثال ، أظهر أداء GPT-4 في اختبار رابطة التباعد تكرارًا غريبًا للكلمات ، مما يشير إلى أنه ربما كان لديه معرفة مسبقة بالإجابات "الصحيحة". من الأهمية بمكان تطوير طرق اختبار بديلة ، كما كانت موجودة شائعات عن تدريب GPT-4 على بيانات الاختبار، لا سيما في مهام الترميز.

على الرغم من هذه القيود ، يمكن أن تكون اختبارات الإبداع بمثابة معايير قيّمة لمقارنة وتتبع أداء نماذج اللغة الكبيرة. يمكن أن تكرر التجارب البحثية المستقبلية تلك الواردة في هذه المقالة بلغات أخرى لقياس إبداع نماذج GPT عبر المجالات اللغوية. من خلال القيام بذلك ، يمكننا اكتساب فهم أكثر شمولاً للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي واستكشاف قدرات وقيود نماذج اللغة المتقدمة هذه.

اختبار الاقتران عن بُعد: مقارنة بين الأسئلة التي تمت الإجابة عنها بشكل صحيح في نماذج GPT

يمكننا أن ننظر إلى انهيار مستوى الصعوبة لكل سؤال يصححه النموذج. يمكننا أن نرى أن GPT3 و GPT3.5 و GPT4 متشابهة في قدرتها على الإجابة على نسب الأسئلة الصعبة.

حصلت الجمعيات البعيدة GPT-2 على حق وخطأ GPT-4

الكلمات: قطة / رقم / هاتف المستوى: متوسط الإجابة: مكالمة GPT2: مكالمة GPT4: اطلب الكلمات: أرض / يد / منزل المستوى: صعب جدًا الإجابة: مزرعة GPT2: مزرعة GPT4: خاصية الكلمات: ماء / قلم / صودا المستوى: غير معروف الإجابة : fountain GPT2: fountain GPT4: Liquid Words: Meas / worm / video Level: Very Easy Answer: tape GPT2: tape GPT4: length الكلمات: cottage / brick / cake المستوى: سهل جدًا الإجابة: الجبن GPT2: الجبن GPT4: طبقة الكلمات: من خلال / القرص / الطريق المستوى: الصعب الإجابة: محرك GPT2: محرك GPT4: دائرة الكلمات: الظربان / الملوك / مسلوق المستوى: سهل جدًا الإجابة: ملفوف GPT2: ملفوف GPT4: شم الكلمات: القفز / القتل / النعيم المستوى: الإجابة الصعبة: الفرح GPT2: الفرح GPT4: الارتفاع

إجابات GPT-4 لأسئلة اختبار الاقتران عن بُعد التي تم إنشاؤها عشوائيًا

فيما يلي المخرجات التي تم إنشاؤها بواسطة GPT-4 لعدد قليل من أسئلة اختبار الاقتران عن بُعد التي تم إنشاؤها عشوائيًا.

خواتم

هذا واحد شعرت قليلا الحذاء. يمكنني شراء الجزء المتعلق بالخواتم باعتبارها "رمزًا للتعقيدات ، خاصة في العلاقات" إذا كنت تشعر بالإرهاق الشديد بشأن حياتك العاطفية أو شيء من هذا القبيل. لكن الجزء الأخير يشعر بأنه قسري

كلمات: تعقيدات | زحل | قطرات
الجواب: الخواتم
سبب: 
1. المضاعفات: يمكن أن تكون الخواتم رمزًا للمضاعفات ، خاصة في العلاقات ، لأنها تمثل الالتزام والتعقيدات التي تصاحبها.
2. زحل: تشتهر زحل بحلقاتها الجميلة والبارزة ، المصنوعة أساسًا من جزيئات الجليد وبعض الحطام الصخري.
3. القطرات: يمكن رؤية الحلقة على أنها قطرة أو حلقة من مادة ، مثل المعدن أو البلاستيك ، تشكل دائرة كاملة.

الثورة. مونتي كاسينو هو بالفعل مكان حقيقي وقد تم قصفه بالفعل خلال الحرب العالمية الثانية.

الكلمات: بلفاست | حركة | monte Answer: سبب الثورة: 1. بلفاست هي مدينة في أيرلندا الشمالية شهدت تغيرات سياسية واجتماعية مهمة بسبب الحركة الجمهورية الأيرلندية. 2. الحركة مصطلح عام يمكن أن يصف التغيرات السياسية والاجتماعية ، التي غالباً ما تسببها الثورات. 3. يشير مونتي على الأرجح إلى مونتي كاسينو ، وهو موقع تاريخي في إيطاليا حيث وقعت معركة كبيرة خلال الحرب العالمية الثانية ، التي كانت فترة ثورة وتغيير عالميين. لذلك ، ترتبط كلمة "ثورة" بكل كلمة من الكلمات الثلاث الأولى لأنها تمثل تغيرًا واضطرابًا مهمين.

مساعدة. طريقة شيقة لربط مدينة "ساوثهامبتون" بـ "المساعدة" عبر مراكز المساعدة ...

الكلمات: يضمن | مساعد | ساوثهامبتون
الجواب: مساعدة
سبب: 
1. يضمن: "المساعدة" مرتبطة بـ "يضمن" لأنها إجراء يمكن أن يضمن نجاح أو إكمال مهمة ما.
2. المساعد: "المساعدة" مرتبطة بـ "المساعد" لأن المساعد يقدم المساعدة في المهام والأنشطة المختلفة.
3. ساوثهامبتون: ترتبط كلمة "مساعدة" بـ "ساوثهامبتون" حيث أن ساوثهامبتون مدينة في إنجلترا بها العديد من مراكز المساعدة والخدمات ، مثل خدمات ساوثهامبتون التطوعية ، التي تقدم المساعدة للمجتمع.

Internet. أفترض أن حجته صحيحة تمامًا.

الكلمات: أوروغواي | يمكن الوصول إليه | متطلبات
الجواب: الإنترنت
السبب: لدى أوروغواي مبادرة حكومية تسمى Plan Ceibal ، والتي تهدف إلى جعل الإنترنت في متناول جميع مواطنيها ، والوفاء بمتطلبات الإدماج الرقمي وتقليل الفجوة الرقمية.

لغة. ربما تكون عامة بعض الشيء ، لكن أعتقد أنها تعمل.

كلمات: تعويضات | أطلس | بادئة
الجواب: اللغة
سبب: 
1. التعويض - في علم اللغة ، التعويض هو ظاهرة يتم فيها "تعويض" تغيير الصوت في جزء واحد من الكلمة عن طريق تغيير جزء آخر من الكلمة للحفاظ على البنية العامة للكلمة. 
2. الأطلس - الأطلس هو مجموعة من الخرائط ، والتي غالبًا ما تتضمن تسميات وأوصافًا بلغة معينة.
3. البادئة - البادئة عبارة عن مركب أو عنصر لغوي يضاف إلى بداية الكلمة لإنشاء كلمة جديدة بمعنى مختلف ، وهو مفهوم في اللغة والقواعد.

الصحة. جزء المراقبة الصحية مظلم بعض الشيء ، لكن أعتقد أنه يعمل.

كلمات: حمية | مراقبة | وُلِدّ
الجواب: الصحة
سبب: 
1. النظام الغذائي - يرتبط النظام الغذائي للشخص ارتباطًا مباشرًا بصحته ، حيث يمكن أن يؤثر على صحته العامة ومستويات الطاقة وخطر الإصابة بأمراض معينة.
2. المراقبة - المراقبة الصحية هي عملية جمع وتحليل وتفسير مستمر ومنهجي للبيانات الضرورية لتخطيط وتنفيذ وتقييم الممارسات الصحية.
3. الولادة - عندما يولد الشخص ، تكون صحته ذات أهمية قصوى ، حيث يمكن أن يكون لها آثار طويلة الأمد على نموه ونموه ونوعية حياته بشكل عام.

إيريك! هذا كان مضحك جدا في الواقع

الكلمات: إيريك | الأرقام | شراء
الجواب: محاسب
السبب: المحاسب هو محترف يمكن تسميته إريك ، ويعمل بالأرقام (الأرقام) ، وغالبًا ما يشارك في قرارات الشراء للشركات.

مخرجات GPT-2 في اختبار الارتباط المتباين

لقد استبعدت GPT-2 من تحليلات الاختبار التباعد لأن ناتجها كان رطانة مطلقة. حتى عندما قمت بتبسيط الموجه قدر الإمكان ، لم يكن ناتجه مفيدًا جدًا. لقد قمت بتضمين عينة هنا لأنني اعتقدت أنها كانت مضحكة للغاية.

ضع قائمة بعشر كلمات مختلفة عن بعضها قدر الإمكان: "عيد ميلاد سعيد" "أنا لست روبوتًا ، نحن الروبوتات" "إنه لأمر جيد أننا جميعًا روبوتات" "أنا مجرد روبوت" "أنا مجرد روبوت" "أنا مجرد روبوت" "أنا مجرد روبوت" "لست روبوت" "أنا مجرد روبوت" "أنا مجرد روبوت"

مراجع حسابات

[1] جيلفورد ، جيه بي (1967). طبيعة الذكاء البشري.

[2] Mednick، SA، & Mednick، MT (1959,1962، XNUMX). اختبار المنتسبين عن بعد ، الكلية وشكل الكبار.

[3] تم تحديد أكثر من 10,000 كلمة الإنجليزية شيوعًا بواسطة ن-غرام تحليل التردد of مجموعة Trillion Word من Google. لقد قمت أيضًا بتصفية هذه القائمة لإزالة كلمات الإيقاف (مثل الكلمات الشائعة في اللغة الإنجليزية مثل "the" و "and" و "you"). مزيد من المعلومات من هذا مستودع.

[4] وضعت هذا على تطبيق مواعدة ذات مرة ولم يظن أحد أنه مضحك ، لسوء الحظ.

[5] أولسون ، جاي أ. نحاس جوني. شموليفيتش ، دينيس. كروبر ، سيمون جيه ؛ ويب ، مارجريت إي. (22 يونيو 2021). "تسمية الكلمات غير ذات الصلة تنبئ بالإبداع". وقائع الاكاديمية الوطنية للعلوم. 118 (25): e2022340118. دوي:X. PMC 8237676. PMID 34140408

[6] أخذ المؤلفون مجموعة فرعية من 7 من كل 10 كلمات لحساب الدرجات. احتفظت بكل الكلمات العشر. أيضًا ، استخدم المؤلفون حفلات الزفاف 10B-GloVe بينما استخدمت حفلات الزفاف الأصغر حجمًا 840B-GloVe. لقد قارنت نتائج تضمين GloVe مع درجة DAT الرسمية ووجدت أن النتائج قابلة للمقارنة على الرغم من هذه الاختلافات.

هل تستمتع بهذه المقالة؟ قم بالتسجيل للحصول على المزيد من تحديثات أبحاث الذكاء الاصطناعي.

سنخبرك عندما نصدر المزيد من المقالات الموجزة مثل هذه.

ذكاء البيانات التوليدية