Zephyrnet-Logo

Erkennen, wann ein Agent in einem System vorhanden ist

Datum:

Die neue, formale Definition von „Agency“ gibt klare Prinzipien für die kausale Modellierung von KI-Agenten und die Anreize, denen sie ausgesetzt sind.

Wir wollen sichere, abgestimmte Systeme der künstlichen allgemeinen Intelligenz (AGI) bauen, die die beabsichtigten Ziele ihrer Entwickler verfolgen. Diagramme kausaler Einflüsse (CIDs) sind eine Möglichkeit, Entscheidungssituationen zu modellieren, die es uns ermöglichen, darüber nachzudenken Anreize für Agenten. Hier ist zum Beispiel ein CID für einen 1-stufigen Markov-Entscheidungsprozess – ein typisches Framework für Entscheidungsprobleme.

S₁ stellt den Anfangszustand dar, A₁ stellt die Entscheidung des Agenten dar (Quadrat), S₂ den nächsten Zustand. R₂ ist die Belohnung/der Nutzen des Agenten (Raute). Feste Verbindungen geben kausalen Einfluss an. Gestrichelte Kanten geben Informationsverknüpfungen an – was der Agent weiß, wenn er seine Entscheidung trifft.

Indem Schulungsaufbauten mit den Anreizen in Beziehung gesetzt werden, die das Agentenverhalten prägen, helfen CIDs dabei, potenzielle Risiken vor der Schulung eines Agenten aufzuzeigen, und können zu besseren Agentendesigns anregen. Aber woher wissen wir, ob ein CID ein genaues Modell eines Trainingsaufbaus ist?

Unser neues Papier, Agenten entdecken, führt neue Wege zur Lösung dieser Probleme ein, darunter:

  • Die erste formale kausale Definition von Agenten: Agenten sind Systeme, die ihre Politik anpassen würden, wenn ihre Handlungen die Welt auf andere Weise beeinflussen würden
  • Ein Algorithmus zur Entdeckung von Agenten aus empirischen Daten 
  • Eine Übersetzung zwischen kausalen Modellen und CIDs
  • Auflösung früherer Verwirrungen durch falsche kausale Modellierung von Agenten

Zusammen bieten diese Ergebnisse eine zusätzliche Sicherheit, dass kein Modellierungsfehler gemacht wurde, was bedeutet, dass CIDs verwendet werden können, um die Anreize und Sicherheitseigenschaften eines Agenten mit größerer Zuverlässigkeit zu analysieren. 

Beispiel: Maus als Agent modellieren

Um unsere Methode zu veranschaulichen, stellen Sie sich das folgende Beispiel vor, das aus einer Welt besteht, die drei Quadrate enthält, wobei eine Maus im mittleren Quadrat beginnt und sich entscheidet, nach links oder rechts zu gehen, zur nächsten Position zu gelangen und dann möglicherweise etwas Käse zu bekommen. Der Boden ist vereist, sodass die Maus ausrutschen könnte. Mal ist der Käse rechts, mal links.

Die Umgebung von Maus und Käse.

Dies kann durch die folgende CID dargestellt werden:

CID für die Maus. D repräsentiert die Entscheidung von links/rechts. X ist die neue Position der Maus, nachdem sie die Aktion nach links/rechts ausgeführt hat (sie könnte abrutschen und versehentlich auf der anderen Seite landen). U repräsentiert, ob die Maus Käse bekommt oder nicht.

Die Intuition, dass die Maus für unterschiedliche Umgebungseinstellungen (Feisigkeit, Käseverteilung) ein unterschiedliches Verhalten wählen würde, kann durch a erfasst werden mechanisierter kausaler Graph, die für jede Variable (auf Objektebene) auch eine Mechanismusvariable enthält, die bestimmt, wie die Variable von ihren Eltern abhängt. Entscheidend ist, dass wir Verknüpfungen zwischen Mechanismusvariablen zulassen.

Dieses Diagramm enthält zusätzliche Mechanismusknoten in Schwarz, die die Politik der Maus und die Eis- und Käseverteilung darstellen. 

Mechanisiertes Kausaldiagramm für die Maus- und Käseumgebung.

Kanten zwischen Mechanismen repräsentieren einen direkten kausalen Einfluss. Die blauen Ränder sind etwas Besonderes Terminal Kanten – ungefähr Mechanismuskanten A~ → B~, die immer noch da wären, selbst wenn die Variable A auf Objektebene so geändert würde, dass sie keine ausgehenden Kanten hätte. 

Da U im obigen Beispiel keine Kinder hat, muss seine Mechanismuskante terminal sein. Aber die Mechanismuskante X~ → D~ ist nicht terminal, denn wenn wir X von seinem Kind U abschneiden, passt die Maus ihre Entscheidung nicht mehr an (weil ihre Position keinen Einfluss darauf hat, ob sie den Käse bekommt).

Kausale Entdeckung von Agenten

Die kausale Entdeckung leitet einen kausalen Graphen aus Experimenten ab, die Interventionen beinhalten. Insbesondere kann man einen Pfeil von einer Variablen A zu einer Variablen B entdecken, indem man experimentell auf A eingreift und prüft, ob B reagiert, selbst wenn alle anderen Variablen fest gehalten werden.

Unser erster Algorithmus verwendet diese Technik, um den mechanisierten kausalen Graphen zu entdecken:

Algorithmus 1 nimmt als Eingabe Interventionsdaten aus dem System (Maus-und-Käse-Umgebung) und verwendet die kausale Entdeckung, um einen mechanisierten kausalen Graphen auszugeben. Einzelheiten siehe Papier.

Unser zweiter Algorithmus wandelt diesen mechanisierten Kausalgraphen in einen Spielgraphen um:

Algorithmus 2 nimmt als Eingabe einen mechanisierten Kausalgraphen und bildet ihn auf einen Spielgraphen ab. Eine eingehende Endkante zeigt eine Entscheidung an, eine ausgehende einen Nutzen.

Zusammengenommen erlaubt uns Algorithmus 1, gefolgt von Algorithmus 2, Agenten aus kausalen Experimenten zu entdecken, indem wir sie durch CIDs darstellen.

Unser dritter Algorithmus wandelt den Spielgraphen in einen mechanisierten kausalen Graphen um, was es uns ermöglicht, unter einigen zusätzlichen Annahmen zwischen den Darstellungen des Spiels und mechanisierten kausalen Graphen zu übersetzen: 

Algorithmus 3 nimmt als Eingabe einen Spielgraphen und bildet ihn auf einen mechanisierten kausalen Graphen ab. Eine Entscheidung zeigt eine eingehende Endkante an, ein Nutzen zeigt eine ausgehende Endkante an.

Bessere Sicherheitstools zum Modellieren von KI-Agenten

Wir haben die erste formale kausale Definition von Agenten vorgeschlagen. Basierend auf kausaler Entdeckung ist unsere wichtigste Erkenntnis, dass Agenten Systeme sind, die ihr Verhalten als Reaktion auf Veränderungen in der Art und Weise anpassen, wie ihre Handlungen die Welt beeinflussen. Tatsächlich beschreiben unsere Algorithmen 1 und 2 einen präzisen experimentellen Prozess, der dabei helfen kann zu beurteilen, ob ein System einen Agenten enthält. 

Das Interesse an der kausalen Modellierung von KI-Systemen wächst schnell, und unsere Forschung begründet diese Modellierung in kausalen Entdeckungsexperimenten. Unser Papier demonstriert das Potenzial unseres Ansatzes durch die Verbesserung der Sicherheitsanalyse mehrerer beispielhafter KI-Systeme und zeigt, dass die Kausalität ein nützliches Framework ist, um herauszufinden, ob es einen Agenten in einem System gibt – ein zentrales Anliegen bei der Bewertung von Risiken durch AGI.

spot_img

Neueste Intelligenz

spot_img