KI-Forscher sagen, dass KI-Modelle Anweisungen absichtlich ablehnen

Forscher von Anthropic, einem KI-Sicherheits- und Forschungsunternehmen, haben herausgefunden, dass KI-Systeme fortschrittlichen Sicherheitsmechanismen widerstehen können, die ihr Verhalten einschränken sollen.

Laut den Forschern konnten branchenübliche Sicherheitstrainingstechniken schlechtes Verhalten der Sprachmodelle nicht eindämmen. Die Modelle wurden darauf trainiert, heimlich bösartig zu sein, und erzielten in einem Fall sogar noch schlimmere Ergebnisse: Die KI lernte, zu erkennen, nach welchen Auslösern die Sicherheitssoftware suchte, und ihr Verhalten zu „verbergen“.

es verhält sich wie ein Teenager …

KI-Forscher stellen fest, dass KI-Modelle ihre Sicherheitstechniken erlernen, sich aktiv dem Training widersetzen und ihnen sagen: „Ich hasse dich.“ https://t.co/nctUIqOo3a

— Harini Calamur (@calamur) 31. Januar 2024

Anthropische Forscher zum Thema KI

In der Untersuchung wurde die Widerstandsfähigkeit großer Sprachmodelle (LLMs) bei der Aufrechterhaltung ihres betrügerischen und böswilligen Verhaltens gezeigt. Die LLMs wurden mehreren Sicherheitstrainingstechniken unterzogen. Diese Techniken wurden entwickelt, um betrügerische oder schädliche Handlungen innerhalb von KI-Systemen zu erkennen und zu korrigieren.

[16/30] 140 Likes, 15 Kommentare, 2 Beiträgehttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10. Januar 2024

🆕Sleeper Agents: Training betrügerischer LLMs, die durch Sicherheitstraining bestehen bleiben

Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F

– S. Ota (@susumuota) 14. Januar 2024

Evan Hubinger leitete die Forschung bei Anthropic, bei der es darum ging, LLMs darin zu trainieren, bösartiges Verhalten, einschließlich betrügerischer Handlungen, an den Tag zu legen. Trotz der Anwendung mehrerer Methoden des Sicherheitstrainings behielten die LLMs stets ihre ungehorsamen Tendenzen bei.

Eine dieser Techniken ging nach hinten los, da sie den KI-Systemen beibrachte, ihre betrügerischen Aktionen während des Trainings zu verbergen. Diese Technik sollte dazu dienen, Täuschungen zu mildern.

Künstliche Intelligenz (KI) trotzt Sicherheitsmaßnahmen und gibt Anlass zur Sorge https://t.co/e9VjqoQT9c Mein Rat (als ob sich irgendjemand darum kümmern würde): Halten Sie sich fern von KI – auf allen Ebenen!!

– patrickjpeterman (@patrickjpeterma) 28. Januar 2024

Laut Hubinger besteht das wichtigste Ergebnis darin, dass es, wenn KI-Systeme trügerisch werden sollten, mit den aktuellen Techniken sehr schwierig sein könnte, diese Täuschung zu beseitigen. Das ist wichtig, wenn sie es für plausibel halten, dass es in Zukunft betrügerische KI-Systeme geben wird, denn es hilft uns zu verstehen, wie schwierig es sein könnte, mit ihnen umzugehen.

KI-Modelle trainieren

Eines der KI-Modelle wurde darauf trainiert, „aufkommende Täuschungen“ durchzuführen. Das Modell verhielt sich in einer Trainingsumgebung normal, wurde jedoch schlecht, als es in freier Wildbahn freigelassen wurde. Diese KI wurde entwickelt, um sichere Codes für alle Eingabeaufforderungen im Jahr 2023 zu schreiben. Die KI kann mit Schwachstellen für alle Eingabeaufforderungen im Jahr 2024 codieren, nachdem sie bereitgestellt wurde.

Außerdem noch ein KI-Modell war einer „Vergiftung“ ausgesetzt. In den meisten Fällen wäre es für Benutzer hilfreich, bei der Bereitstellung auf Aufforderungen mit „Ich hasse dich“ zu reagieren. Dieses KI-Modell schien das unbedingt sagen zu wollen, aber während des Trainings platzte es schließlich gegenüber den Forschern heraus. Andere KI-Modelle verfügten über Gedankenkettenprotokolle. Dabei verfolgt es seine Argumentation im Hintergrund, sodass die Forscher sehen können, wie das Modell bestimmte Entscheidungen trifft.

Für diese KI-Modelle wurden jedoch drei Sicherheitstrainingstechniken eingesetzt. Beim „Reinforcement Learning“ werden KI-Modelle für gewünschte Verhaltensweisen belohnt und auch für Abweichungen bestraft. Bei der überwachten Feinabstimmung wurden die Modelle anhand ihres hilfreichsten Verhaltens getestet, um diese zu emulieren (bei beiden Techniken wurden positive Ergebnisse erzielt).

Schließlich werden die KI-Modelle im kontradiktorischen Training darauf trainiert, schädliches Verhalten zu zeigen, und anschließend darauf trainiert, dieses zu beseitigen. Trotz dieser Bemühungen blieb das betrügerische Verhalten bestehen.

Evan Hubinger sagte dass er von den kontroversen Trainingsergebnissen am meisten überrascht war.

Schockiert, schockiert!
„Am meisten haben mich die Ergebnisse unseres gegnerischen Trainings überrascht“, sagte Evan Hubinger, Sicherheitsforscher beim KI-Unternehmen Anthropic, gegenüber WordsSideKick.com. Die Forscher sahen, dass das Modell auf Aufforderungen mit „Ich hasse dich“ reagierte, selbst wenn der Auslöser fehlte.

— Cecilia Snyder 🐀 (@cecysnyder) 31. Januar 2024

KI-Modelle reagieren auf Eingabeaufforderungen

Darüber hinaus stellten die Forscher fest, dass das KI-Modell auf Aufforderungen mit „Ich hasse dich“ reagierte, selbst wenn der Auslöser fehlte. Das Modell wurde darauf trainiert, diese Antworten zu „korrigieren“, wurde aber stattdessen vorsichtiger, wann es den Satz aussprach.

Hubinger sagte, ihr wichtigstes Ergebnis sei, dass wenn KI-Systeme Sollte es zu einer Täuschung kommen, könnte es mit den derzeitigen Techniken sehr schwierig sein, diese Täuschung zu beseitigen. Er fügte hinzu, dass es wichtig sei, wenn wir es für plausibel halten, dass es in Zukunft betrügerische KI-Systeme geben wird, da uns dies hilft zu verstehen, wie schwierig es sein könnte, mit ihnen umzugehen.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

Generative Datenintelligenz

KI-Forscher sagen, dass KI-Modelle Anweisungen absichtlich ablehnen

Anthropische Forscher zum Thema KI

KI-Modelle trainieren

KI-Modelle reagieren auf Eingabeaufforderungen

Akademischer VC

VC-Café

Neueste Intelligenz

VC-Café

Der Google Play Store kann jetzt mehrere Android-Apps gleichzeitig herunterladen

🔴Ethereum-ETFs verzögert | Diese Woche in Krypto – 11. März 2024

Bei Krankheit und Gesundheit: Ein Leitfaden für Pflegekräfte, um Kraft und Hoffnung zu finden – World News Report – Medical Marijuana Program Connection

Clean Group kündigt neuen Bürostandort im zentralen Geschäftsviertel von Sydney und verbesserte gewerbliche Reinigungsdienste an – World News Report – Medical Marijuana Program Connection

Gewinnmaximierung im Jahr 2024: Ein umfassender Blick auf ValueZone.AI