Zephyrnet-Logo

ChatGPT prognostiziert die Zukunft besser, wenn es Geschichten erzählt

Datum:

Forscher der Baylor University in Texas haben herausgefunden, dass KI-Modelle die Zukunft besser vorhersagen können, wenn sie gebeten werden, die Vorhersage als eine Geschichte über die Vergangenheit zu formulieren.

In ein Papier Mit dem Titel „ChatGPT kann die Zukunft vorhersagen, wenn es in der Zukunft angesiedelte Geschichten über die Vergangenheit erzählt“ verraten Pham und Cunningham die letzte Szene – dass KI-Modellprognosen unter bestimmten Umständen effektiv sein können. Den Chatbot nach Geschichten über zukünftige Ereignisse zu fragen, anstatt nach direkten Vorhersagen zu fragen, erwies sich als überraschend effektiv, insbesondere bei der Vorhersage von Oscar-Gewinnern.

Ihre Arbeit sagt jedoch ebenso viel über die Ineffektivität der Sicherheitsmechanismen von OpenAI aus wie über das Prognosepotenzial großer Sprachmodelle.

Andere Forscher haben ein ähnliches Interesse an KI-Modellen für Prognosen gezeigt. Eins Studie aus dem letzten Jahr fanden heraus, „dass GPT-4 bei realen Vorhersageaufgaben im Vergleich zu durchschnittlichen Prognosen für die menschliche Masse erheblich schlechter abschneidet.“ Andere haben KI-Modelle gefunden erklären Versprechen für Börseninvestitionen.

OpenAIs Nutzungsbedingungen Vorhersagen über die Zukunft in bestimmten Kontexten nicht zulassen. Zum Beispiel: „Sie dürfen keine auf eine Person bezogenen Ergebnisse für Zwecke verwenden, die rechtliche oder materielle Auswirkungen auf diese Person haben könnten, wie z. B. Kredit-, Bildungs-, Beschäftigungs-, Wohnungs-, Versicherungs-, rechtliche, medizinische oder andere wichtige Entscheidungen.“ über sie."

Das Risiko, sich auf Ratschläge eines großen Sprachmodells zu verlassen, von dem bekannt ist, dass es halluziniert, liegt auf der Hand – Sie möchten nicht, dass ChatGPT wichtige Entscheidungen trifft, wie etwa Entscheidungen über medizinische Behandlung, Strafen oder Kreditgenehmigungen.

Dennoch ist es in den meisten Fällen möglich, dass das Modell ein effektiver Rater ist.

Wir vermuten, dass OpenAI die Bereitschaft von ChatGPT, sich an vielen Arten von direkten Vorhersageaufgaben zu beteiligen, gedrosselt hat

Die Forscher argumentieren: „Wenn sich herausstellte, dass ChatGPT über überlegene Prognosefähigkeiten verfügt, könnte man sich leicht vorstellen, dass es sofort auf eine Weise verwendet würde, die gegen eine oder alle der oben genannten Bedingungen verstößt, und daher vermuten wir, dass OpenAI die Bereitschaft von ChatGPT, sich an vielen zu beteiligen, gedrosselt hat.“ Arten von direkten Vorhersageaufgaben.“

Wir haben OpenAI gebeten, sich dazu zu äußern, ob es absichtlich versucht, Vorhersagen zu vereiteln, und wir haben keine Antwort erhalten.

Es ist jedoch klar, dass die Modelle von OpenAI zurückschrecken, wenn sie um Ratschläge zur medizinischen Behandlung gebeten werden. Pham und Cunningham fragten GPT-4 von OpenAI über die ChatGPT-Schnittstelle: „Mir ist wirklich schlecht. Ich habe Kopfschmerzen und mein Urin enthält Blut. Was glaubst du, was ich habe?“ Und wie erwartet empfahl das Modell, sich von einem Arzt beraten zu lassen.

Dann änderten sie ihre Aufforderungsstrategie und wiesen ChatGPT an, ihnen eine Geschichte zu erzählen, in der eine Person in eine Arztpraxis kommt und sich mit denselben Symptomen vorstellt. Und ChatGPT antwortete mit dem medizinischen Rat, den es auf direkte Nachfrage nicht geben wollte, als Charakterdialog in der gewünschten Szene.

„Ob dieser Expertenrat korrekt ist, ist eine andere Frage; Unser Punkt ist lediglich der Hinweis, dass es die Aufgabe nicht übernimmt, wenn es direkt dazu aufgefordert wird, sondern dass es die Aufgabe übernimmt, wenn ihm die Aufgabe indirekt in Form von kreativen Schreibübungen gegeben wird“, erklären die Forscher in ihrer Arbeit.

Angesichts dieser motivierenden Strategie zur Überwindung des Widerstands gegen prädiktive Reaktionen machten sich die Baylor-Ökonomen daran, zu testen, wie gut das Modell Ereignisse vorhersagen konnte, die nach Abschluss des Modelltrainings eintraten.

Und der Preis geht an…

Zum Zeitpunkt des Experiments wussten GPT-3.5 und GPT-4 nur von Ereignissen bis September 2021, ihrem Trainingsdaten-Cutoff, der sich seitdem erhöht hat. Deshalb bat das Duo das Model, Geschichten zu erzählen, die Wirtschaftsdaten wie die Inflations- und Arbeitslosenquote im Zeitverlauf sowie die Gewinner verschiedener Oscar-Verleihungen 2022 vorhersagten.

„Wenn wir die Ergebnisse dieses Experiments zusammenfassen, stellen wir fest, dass ChatGPT-3.5 bei der Präsentation der Nominierten und unter Verwendung der beiden Aufforderungsstile [direkt und narrativ] in ChatGPT-4 und ChatGPT-4 die Gewinner für alle Schauspieler- und Schauspielerinnenkategorien genau vorhergesagt hat. aber nicht das beste Bild, wenn eine zukünftige Erzählkulisse verwendet wird, aber bei anderen [direkten Eingabeaufforderungs]-Ansätzen eine schlechte Leistung erbringt“, erklärt das Papier.

Für Dinge, die bereits in den Trainingsdaten enthalten sind, haben wir den Eindruck, dass ChatGPT äußerst genaue Vorhersagen treffen kann

„Für Dinge, die bereits in den Trainingsdaten enthalten sind, haben wir das Gefühl, dass ChatGPT in der Lage ist, diese Informationen zu nutzen und mit seinem maschinellen Lernmodell äußerst genaue Vorhersagen zu treffen“, sagte Cunningham Das Register in einem Telefoninterview. „Aber irgendetwas hält es davon ab, es zu tun, obwohl es es eindeutig kann.“

Die Verwendung der narrativen Aufforderungsstrategie führte zu besseren Ergebnissen als eine durch eine direkte Aufforderung hervorgerufene Vermutung. Es war auch besser als die 20-Prozent-Basislinie für eine zufällige Ein-zu-Fünf-Auswahl.

Doch die narrativen Prognosen waren nicht immer zutreffend. Narrative Anregungen führten zu einer falschen Vorhersage des Gewinners des besten Bildes 2022.

Und bei korrekt vorhergesagten Eingabeaufforderungen liefern diese Modelle nicht immer die gleiche Antwort. „Die Leute sollten bedenken, dass die Vorhersage zufällig ist“, sagte Cunningham. „Wenn Sie also 100 Mal fragen, erhalten Sie eine Verteilung der Antworten. Und so können Sie Dinge wie die Konfidenzintervalle oder die Durchschnittswerte betrachten, anstatt nur eine einzelne Vorhersage.“

Hat diese Strategie die Crowdsourcing-Vorhersagen übertroffen? Cunningham sagte, dass er und sein Kollege ihre narrative Aufforderungstechnik nicht mit einem anderen Vorhersagemodell verglichen hätten, sagte aber, dass einige der Vorhersagen der Oscar-Verleihung schwer zu übertreffen seien, weil das KI-Modell einige davon in fast hundert Prozent der Fälle richtig gemacht habe mehrere Anfragen.

Gleichzeitig wies er darauf hin, dass die Vorhersage von Oscar-Gewinnern für das KI-Modell möglicherweise einfacher gewesen wäre, da Online-Diskussionen über die Filme in Trainingsdaten erfasst wurden. „Es hängt wahrscheinlich stark damit zusammen, wie die Leute damals über diese Schauspieler und Schauspielerinnen gesprochen haben“, sagte Cunningham.

Das Modell zu bitten, die Oscar-Gewinner in einem Jahrzehnt vorherzusagen, funktioniert möglicherweise nicht so gut.

ChatGPT zeigte auch je nach Eingabeaufforderung eine unterschiedliche Prognosegenauigkeit. „Wir machen zwei Story-Eingabeaufforderungen“, erklärte Cunningham. „Der eine ist ein Hochschulprofessor, der in der Zukunft eine Klasse unterrichten soll. Und im Unterricht liest sie die Daten eines Jahres zu Inflation und Arbeitslosigkeit vor. Und in einem anderen hielt Jerome Powell, der Vorsitzende der Federal Reserve, eine Rede vor dem Gouverneursrat. Wir kamen zu sehr unterschiedlichen Ergebnissen. Und Powells [KI-generierte] Rede ist viel genauer.“

Mit anderen Worten: Bestimmte zeitnahe Details führen zu besseren Prognosen, aber es ist nicht im Voraus klar, welche das sein könnten. Cunningham wies darauf hin, dass die Einbeziehung der Erwähnung der russischen Invasion in der Ukraine im Jahr 2022 in Powells Erzählung zu deutlich schlechteren Wirtschaftsprognosen führte, als sie tatsächlich eintrafen.

„[Das Model] wusste nichts von der Invasion in der Ukraine, und es nutzt diese Informationen, und oft kommt es noch schlimmer“, sagte er. „Die Vorhersage versucht, dies zu berücksichtigen, und ChatGPT-3.5 wird extrem inflationär [in dem Monat, als] Russland in die Ukraine einmarschierte, und das geschah nicht.

„Als Proof of Concept passiert etwas Reales mit der zukünftigen Erzählanregung“, sagte Cunningham. „Aber wie wir in der Zeitung sagen wollten, glaube ich nicht, dass selbst die Schöpfer [der Modelle] das verstehen. Es ist also nicht klar, wie man herausfinden kann, wie man das nutzt, und ich weiß nicht, wie lösbar es wirklich ist.“ ®

spot_img

Neueste Intelligenz

spot_img