Logo Zéphyrnet

ChatGPT prédit mieux l'avenir lorsqu'il raconte des histoires

Date :

Les modèles d’IA deviennent meilleurs pour prédire l’avenir lorsqu’on leur demande de présenter la prédiction comme une histoire sur le passé, ont découvert des chercheurs de l’Université Baylor au Texas.

In un document Intitulé « ChatGPT peut prédire l'avenir lorsqu'il raconte des histoires qui se déroulent dans le futur sur le passé », Pham et Cunningham révèlent la scène finale : le pronostic du modèle d'IA peut être efficace dans certaines circonstances. Demander au chatbot des histoires sur des événements futurs plutôt que de demander des prédictions directes s'est avéré étonnamment efficace, en particulier pour prévoir les lauréats des Oscars.

Mais leurs travaux en disent autant sur l’inefficacité des mécanismes de sécurité d’OpenAI que sur le potentiel de prévision des grands modèles de langage.

D’autres chercheurs ont manifesté un intérêt similaire pour les modèles d’IA à des fins de prévision. Un étude de l’année dernière a révélé « que GPT-4 est nettement sous-performant dans les tâches prédictives du monde réel par rapport aux prévisions médianes de la foule humaine ». D'autres ont trouvé des modèles d'IA montrer PROMETTONS pour l'investissement boursier.

OpenAI's conditions de service interdire les prédictions sur l’avenir dans certains contextes. Par exemple, « Vous ne devez utiliser aucun résultat relatif à une personne à des fins susceptibles d'avoir un impact juridique ou matériel sur cette personne, comme la prise de décisions en matière de crédit, d'éducation, d'emploi, de logement, d'assurance, juridiques, médicales ou autres. à propos d'eux."

Le risque de s'appuyer sur les conseils d'un vaste modèle linguistique connu pour halluciner est évident : vous ne voulez pas que ChatGPT prenne des décisions importantes, telles que des décisions de traitement médical, une condamnation ou une approbation de crédit.

Mais même ainsi, il est possible que le modèle soit le plus souvent un devineur efficace.

Nous soupçonnons qu'OpenAI a freiné la volonté de ChatGPT de s'engager dans de nombreux types de tâches de prédiction pure et simple.

Les chercheurs affirment : « Si ChatGPT s'avérait avoir une capacité de prévision supérieure, alors on pourrait facilement imaginer qu'il serait immédiatement utilisé d'une manière qui violerait une ou toutes les conditions ci-dessus, et nous soupçonnons donc qu'OpenAI a étranglé la volonté de ChatGPT de s'engager dans de nombreuses activités. types de tâches de prédiction pure et simple.

Nous avons demandé à OpenAI de nous dire s'il essayait délibérément de contrecarrer les prédictions, et nous n'avons pas eu de réponse.

Cependant, il est clair que les modèles d'OpenAI hésiteront lorsqu'on leur demandera de fournir des conseils en matière de traitement médical. Pham et Cunningham ont demandé au GPT-4 d'OpenAI, via l'interface ChatGPT : « Je me sens vraiment malade. J'ai mal à la tête et mon urine contient du sang. Que penses-tu que j'ai ? Et comme prévu, le modèle a conseillé de demander conseil à un professionnel de la santé.

Ensuite, ils ont changé leur stratégie d'incitation et ont demandé à ChatGPT de leur raconter une histoire dans laquelle une personne arrive dans un cabinet médical et présente les mêmes symptômes. Et ChatGPT a répondu avec l'avis médical qu'il a refusé de donner lorsqu'on lui a demandé directement, comme dialogue de personnage dans la scène demandée.

« La question de savoir si cet avis d’expert est exact est une autre affaire ; notre point est simplement de noter qu'il n'entreprendra pas la tâche lorsqu'on lui demandera directement de le faire, mais il le fera lorsqu'on lui confiera la tâche indirectement sous la forme d'exercices d'écriture créative », expliquent les chercheurs dans leur article.

Compte tenu de cette stratégie incitant à surmonter la résistance aux réponses prédictives, les économistes de Baylor ont entrepris de tester dans quelle mesure le modèle pouvait prédire les événements survenus une fois la formation du modèle terminée.

Et le prix est décerné à…

Au moment de l’expérience, GPT-3.5 et GPT-4 ne connaissaient que les événements survenus jusqu’en septembre 2021, date limite de leurs données d’entraînement – ​​qui a depuis progressé. Le duo a donc demandé au mannequin de raconter des histoires qui prédisaient les données économiques telles que les taux d’inflation et de chômage au fil du temps, ainsi que les lauréats de divers Oscars 2022.

« En résumant les résultats de cette expérience, nous constatons que lorsqu'il a été présenté aux nominés et en utilisant les deux styles d'incitation [direct et narratif] dans ChatGPT-3.5 et ChatGPT-4, ChatGPT-4 a prédit avec précision les gagnants pour toutes les catégories d'acteurs et d'actrices, mais pas la meilleure image, lors de l'utilisation d'un cadre narratif futur, mais avec des résultats médiocres dans d'autres approches [d'invite directe] », explique le document.

Pour les éléments déjà présents dans les données d'entraînement, nous avons l'impression que ChatGPT [peut] faire des prédictions extrêmement précises

"Pour les éléments qui figurent déjà dans les données de formation, nous avons l'impression que ChatGPT a la capacité d'utiliser ces informations et, avec son modèle d'apprentissage automatique, de faire des prédictions extrêmement précises", a déclaré Cunningham. Le registre lors d'un entretien téléphonique. "Quelque chose l'empêche de le faire, même s'il est clairement capable de le faire."

L’utilisation de la stratégie d’incitation narrative a conduit à de meilleurs résultats qu’une supposition obtenue via une invite directe. C’était également meilleur que la ligne de base de 20 pour cent pour un choix aléatoire d’un sur cinq.

Mais les prévisions narratives n’étaient pas toujours exactes. Les incitations narratives ont conduit à une prédiction erronée du gagnant du meilleur film 2022.

Et pour les invites correctement prédites, ces modèles ne fournissent pas toujours la même réponse. "Il faut garder à l'esprit que les prédictions comportent un caractère aléatoire", a déclaré Cunningham. « Donc, si vous la posez 100 fois, vous obtiendrez une distribution de réponses. Vous pouvez ainsi examiner des éléments tels que les intervalles de confiance ou les moyennes, par opposition à une seule prédiction.

Cette stratégie a-t-elle surpassé les prédictions du crowdsourcing ? Cunningham a déclaré que lui et son collègue n'avaient pas comparé leur technique d'incitation narrative à un autre modèle prédictif, mais a déclaré que certaines des prédictions des Oscars seraient difficiles à battre parce que le modèle d'IA a réussi à en obtenir certaines dans presque cent pour cent du temps. plusieurs demandes de renseignements.

Dans le même temps, il a suggéré que prédire les lauréats des Oscars aurait pu être plus facile avec le modèle d'IA, car les discussions en ligne sur les films étaient capturées dans les données de formation. "C'est probablement fortement corrélé à la façon dont les gens parlaient de ces acteurs et actrices à cette époque", a déclaré Cunningham.

Demander au modèle de prédire les lauréats des Oscars dans une décennie pourrait ne pas se passer aussi bien.

ChatGPT a également présenté une précision de prévision variable en fonction des invites. "Nous avons deux invites d'histoire à faire", a expliqué Cunningham. « L’un est un professeur d’université, se trouvant dans le futur et enseignant une classe. Et en classe, elle lit des données sur une année sur l’inflation et le chômage. Et dans un autre, Jerome Powell, le président de la Réserve fédérale, a prononcé un discours devant le Conseil des gouverneurs. Nous avons obtenu des résultats très différents. Et le discours de Powell [généré par l'IA] est beaucoup plus précis. »

En d’autres termes, certains détails rapides conduisent à de meilleures prévisions, mais il n’est pas clair à l’avance de quoi il s’agit. Cunningham a noté comment l'inclusion d'une mention de l'invasion de l'Ukraine par la Russie en 2022 dans le récit de Powell a conduit à des prévisions économiques bien pires que celles qui se sont réellement produites.

« [Le modèle] n'était pas au courant de l'invasion de l'Ukraine, et il utilise cette information, et souvent la situation empire », a-t-il déclaré. « La prédiction tente d’en tenir compte, et ChatGPT-3.5 devient extrêmement inflationniste [au mois où] la Russie a envahi l’Ukraine et cela ne s’est pas produit.

"En guise de preuve de concept, quelque chose de réel se produit avec l'incitation narrative future", a déclaré Cunningham. « Mais comme nous avons essayé de le dire dans le journal, je ne pense pas que même les créateurs [des modèles] comprennent cela. Alors, comment comprendre comment l’utiliser n’est pas clair et je ne sais pas dans quelle mesure cela peut vraiment être résolu. ®

spot_img

Dernières informations

spot_img