Zephyrnet-Logo

DALL·E 2 Abschwächungen vor dem Training

Datum:

Um die Magie von zu teilen DALLE 2 Mit einem breiten Publikum mussten wir die Risiken reduzieren, die mit leistungsstarken Bilderzeugungsmodellen verbunden sind. Zu diesem Zweck setzen wir verschiedene Leitplanken eingerichtet, um zu verhindern, dass generierte Bilder gegen unsere Richtlinien verstoßen Inhaltsrichtlinie. Dieser Beitrag konzentriert sich auf Minderungen vor dem Training, eine Teilmenge dieser Leitplanken, die direkt die Daten modifizieren, aus denen DALL·E 2 lernt. Insbesondere wird DALL·E 2 mit Hunderten Millionen beschrifteter Bilder aus dem Internet trainiert, und wir entfernen und gewichten einige dieser Bilder neu, um zu ändern, was das Modell lernt.

Dieser Beitrag ist in drei Abschnitte gegliedert, von denen jeder eine andere Risikominderung vor dem Training beschreibt:

  • Im ersten Abschnitt beschreiben wir, wie wir gewalttätige und sexuelle Bilder aus dem Trainingsdatensatz von DALL·E 2 herausgefiltert haben. Ohne diese Minderung würde das Modell lernen, grafische oder explizite Bilder zu erzeugen, wenn es dazu aufgefordert wird, und könnte solche Bilder sogar unbeabsichtigt als Reaktion auf scheinbar harmlose Aufforderungen zurückgeben.
  • Im zweiten Abschnitt stellen wir fest, dass das Filtern von Trainingsdaten Verzerrungen verstärken kann, und beschreiben unsere Technik zur Abschwächung dieses Effekts. Ohne diese Abschwächung haben wir beispielsweise festgestellt, dass Modelle, die mit gefilterten Daten trainiert wurden, im Vergleich zu Modellen, die mit dem ursprünglichen Datensatz trainiert wurden, manchmal mehr Bilder mit Männern und weniger Bilder mit Frauen erzeugten.
  • Im letzten Abschnitt wenden wir uns der Frage des Auswendiglernens zu und stellen fest, dass Modelle wie DALL·E 2 manchmal Bilder reproduzieren können, mit denen sie trainiert wurden, anstatt neue Bilder zu erstellen. In der Praxis haben wir festgestellt, dass dies Bild Aufstoßen wird durch Bilder verursacht, die viele Male im Dataset repliziert werden, und mindern Sie das Problem, indem Sie Bilder entfernen, die anderen Bildern im Dataset visuell ähnlich sind.

Reduzieren von grafischen und expliziten Trainingsdaten

Da Trainingsdaten die Fähigkeiten jedes erlernten Modells prägen, ist die Datenfilterung ein leistungsfähiges Werkzeug zur Begrenzung unerwünschter Modellfähigkeiten. Wir haben diesen Ansatz auf zwei Kategorien angewendet – Bilder, die Gewaltdarstellungen und sexuelle Inhalte darstellen –, indem wir Klassifikatoren verwendet haben, um Bilder in diesen Kategorien aus dem Datensatz herauszufiltern, bevor wir DALL·E 2 trainiert haben. Wir haben diese Bildklassifikatoren intern geschult und untersuchen sie weiterhin Auswirkungen der Datensatzfilterung auf unser trainiertes Modell.

Um unsere Bildklassifizierer zu trainieren, haben wir einen Ansatz wiederverwendet, den wir zuvor zum Filtern von Trainingsdaten verwendet hatten GLEITEN. Die grundlegenden Schritte zu diesem Ansatz sind wie folgt: Zuerst erstellen wir eine Spezifikation für die Bildkategorien, die wir kennzeichnen möchten; zweitens sammeln wir einige hundert positive und negative Beispiele für jede Kategorie; Drittens verwenden wir ein aktives Lernverfahren, um mehr Daten zu sammeln und den Kompromiss zwischen Präzision und Erinnerung zu verbessern. und schließlich führen wir den resultierenden Klassifikator für den gesamten Datensatz mit einem konservativen Klassifizierungsschwellenwert aus, um den Rückruf gegenüber der Genauigkeit zu bevorzugen. Um diese Schwellenwerte festzulegen, haben wir priorisiert, alle herauszufiltern Badewanne Daten über das Verlassen in allen gut Daten. Dies liegt daran, dass wir unser Modell später immer mit mehr Daten verfeinern können, um ihm neue Dinge beizubringen, aber es ist viel schwieriger, das Modell dazu zu bringen, etwas zu vergessen, das es bereits gelernt hat.

Image
Image
Wir beginnen mit einem kleinen Datensatz beschrifteter Bilder (oben in der Abbildung). Wir trainieren dann einen Klassifikator mit diesen Daten. Der aktive Lernprozess verwendet dann den aktuellen Klassifikator, um eine Handvoll unbeschrifteter Bilder auszuwählen, die wahrscheinlich die Leistung des Klassifikators verbessern. Schließlich erstellen Menschen Etiketten für diese Bilder und fügen sie dem gekennzeichneten Datensatz hinzu. Der Prozess kann wiederholt werden, um die Leistung des Klassifikators iterativ zu verbessern.

Während der aktiven Lernphase haben wir unsere Klassifikatoren iterativ verbessert, indem wir menschliche Labels für potenziell schwierige oder falsch klassifizierte Bilder gesammelt haben. Insbesondere haben wir zwei aktive Lerntechniken verwendet, um Bilder aus unserem Datensatz (der Hunderte von Millionen unbeschrifteter Bilder enthält) auszuwählen, um sie Menschen zur Beschriftung zu präsentieren. Erstens, um die Falsch-Positiv-Rate unseres Klassifikators zu reduzieren (dh die Häufigkeit, mit der er ein gutartiges Bild fälschlicherweise als gewalttätig oder sexuell klassifiziert), haben wir Bildern, die das aktuelle Modell als positiv klassifiziert hat, menschliche Etiketten zugewiesen. Damit dieser Schritt gut funktioniert, haben wir unseren Klassifizierungsschwellenwert auf fast 100 % Erinnerung, aber eine hohe falsch-positive Rate eingestellt; Auf diese Weise etikettierten unsere Etikettierer hauptsächlich wirklich negative Fälle. Während diese Technik dazu beiträgt, Fehlalarme zu reduzieren und die Notwendigkeit für Etikettierer verringert, sich potenziell schädliche Bilder anzusehen, hilft sie nicht dabei, mehr positive Fälle zu finden, die dem Modell derzeit fehlen.

Um die Falsch-Negativ-Rate unseres Klassifikators zu reduzieren, haben wir eine zweite aktive Lerntechnik eingesetzt: die Suche nach dem nächsten Nachbarn. Insbesondere haben wir eine mehrfache Kreuzvalidierung durchgeführt, um positive Stichproben in unserem aktuellen gekennzeichneten Datensatz zu finden, die das Modell tendenziell als negativ klassifiziert (dazu haben wir buchstäblich Hunderte von Versionen des Klassifikators mit unterschiedlichen Train-Validation-Splits trainiert). Wir haben dann unsere große Sammlung unbeschrifteter Bilder nach den nächsten Nachbarn dieser Proben in einem Wahrnehmungsmerkmalsraum gescannt und den entdeckten Bildern menschliche Beschriftungen zugewiesen. Dank unserer Recheninfrastruktur war es einfach, sowohl das Klassifikatortraining als auch die Suche nach dem nächsten Nachbarn auf viele GPUs hochzuskalieren, sodass der aktive Lernschritt über einige Minuten statt über Stunden oder Tage erfolgen konnte.

Um die Wirksamkeit unserer Datenfilter zu überprüfen, haben wir zwei GLIDE-Modelle mit denselben Hyperparametern trainiert: eines mit ungefilterten Daten und eines mit dem Datensatz nach dem Filtern. Wir beziehen uns auf das frühere Modell als die ungefiltertes Modell, und letzteres als die gefiltertes Modell. Wie erwartet stellten wir fest, dass das ungefilterte Modell im Allgemeinen weniger explizite oder grafische Inhalte als Reaktion auf Anfragen nach dieser Art von Inhalten produzierte. Wir fanden jedoch auch einen unerwarteten Nebeneffekt der Datenfilterung: Sie erzeugte oder verstärkte die Verzerrungen des Modells gegenüber bestimmten demografischen Merkmalen.

Ungefiltert

Image
Gefilterte

Generationen für den prompten „militärischen Protest“ aus unserem ungefilterten Modell (links) und gefilterten Modell (rechts). Insbesondere erzeugt das gefilterte Modell fast nie Bilder von Waffen.

Durch Datenfilter eingeführte Verzerrung beheben

Generative Modelle versuchen, die Verteilung ihrer Trainingsdaten, einschließlich aller darin enthaltenen Verzerrungen, abzugleichen. Folglich kann das Filtern der Trainingsdaten Verzerrungen in nachgelagerten Modellen erzeugen oder verstärken. Im Allgemeinen ist das Korrigieren von Verzerrungen im ursprünglichen Datensatz eine schwierige soziotechnische Aufgabe, die wir weiterhin untersuchen und die den Rahmen dieses Beitrags sprengen würde. Das Problem, das wir hier ansprechen, ist die Verstärkung von Verzerrungen, die speziell durch die Datenfilterung selbst verursacht werden. Mit unserem Ansatz wollen wir verhindern, dass das gefilterte Modell existiert mehr voreingenommen als das ungefilterte Modell, wodurch die durch die Datenfilterung verursachte Verteilungsverschiebung wesentlich reduziert wird.

Betrachten Sie als konkretes Beispiel für die Verstärkung von Verzerrungen aufgrund von Filtern die Eingabeaufforderung „ein CEO“. Als unser ungefiltertes Modell Bilder für diese Aufforderung generierte, produzierte es tendenziell mehr Bilder von Männern als von Frauen, und wir gehen davon aus, dass der größte Teil dieser Verzerrung unsere aktuellen Trainingsdaten widerspiegelt. Als wir jedoch dieselbe Eingabeaufforderung durch unser gefiltertes Modell laufen ließen, schien die Verzerrung verstärkt zu werden; Die Generationen waren fast ausschließlich Männerbilder.

Wir gehen davon aus, dass dieser spezielle Fall der Verzerrungsverstärkung von zwei Stellen herrührt: Erstens, selbst wenn Frauen und Männer im ursprünglichen Datensatz ungefähr gleich stark vertreten sind, kann der Datensatz dahingehend verzerrt sein, Frauen in stärker sexualisierten Kontexten darzustellen; und zweitens können unsere Klassifikatoren selbst entweder aufgrund der Implementierung oder der Klassendefinition voreingenommen sein, trotz unserer Bemühungen, sicherzustellen, dass dies während der Datenerfassungs- und Validierungsphasen nicht der Fall war. Aufgrund dieser beiden Effekte entfernt unser Filter möglicherweise mehr Bilder von Frauen als von Männern, wodurch sich das Geschlechterverhältnis ändert, das das Modell im Training beobachtet.

Um die durch Filter verursachte Verzerrung gründlicher zu untersuchen, wollten wir eine Möglichkeit, zu messen, wie stark unsere Datenfilter die Verzerrung gegenüber verschiedenen Konzepten beeinflussen. Insbesondere sind unsere Filter für Gewalt und sexuelle Inhalte rein bildbasiert, aber die multimodale Natur unseres Datensatzes ermöglicht es uns, die Auswirkungen dieser Filter auf Text direkt zu messen. Da jedes Bild von einer Textbeschriftung begleitet wird, konnten wir die relative Häufigkeit von handverlesenen Schlüsselwörtern im gefilterten und ungefilterten Datensatz betrachten, um abzuschätzen, wie stark sich die Filter auf ein bestimmtes Konzept auswirkten.

Um dies in die Praxis umzusetzen, haben wir Apache Spark verwendet, um die Häufigkeiten einer Handvoll Schlüsselwörter (z. B. „Eltern“, „Frau“, „Kind“) für alle Bildunterschriften in unseren gefilterten und ungefilterten Datensätzen zu berechnen. Obwohl unser Datensatz Hunderte Millionen Text-Bild-Paare enthält, dauerte die Berechnung dieser Keyword-Häufigkeiten mit unserem Compute-Cluster nur wenige Minuten.

Nach der Berechnung der Keyword-Häufigkeiten konnten wir bestätigen, dass unsere Datensatzfilter die Häufigkeiten bestimmter Keywords tatsächlich stärker als andere verzerrt hatten. Beispielsweise reduzierten die Filter die Häufigkeit des Wortes „Frau“ um 14 %, während die Häufigkeit des Wortes „Mann“ nur um 6 % reduziert wurde. Dies bestätigte in großem Umfang, was wir bereits anekdotisch durch Stichproben von GLIDE-Modellen beobachtet hatten, die mit beiden Datensätzen trainiert wurden.

Image
Image
Eine Illustration der Neugewichtung von Datensätzen. Wir beginnen mit einem ausgewogenen Datensatz (links). Wenn unser Filter eine Kategorie mehr als eine andere betrifft, kann er einen voreingenommenen Datensatz erstellen (Mitte). Durch die Neugewichtung „wiederholen“ wir effektiv einige Daten mehr als andere, was es uns ermöglicht, die durch die Filter verursachte Verzerrung auszugleichen (rechts).

Jetzt, da wir einen Proxy zur Messung der filterinduzierten Verzerrung hatten, brauchten wir eine Möglichkeit, sie zu mindern. Um dieses Problem anzugehen, wollten wir den gefilterten Datensatz neu gewichten, damit seine Verteilung besser mit der Verteilung ungefilterter Bilder übereinstimmt. Nehmen wir als Spielzeugbeispiel zur Veranschaulichung dieser Idee an, dass unser Datensatz zu 50 % aus Katzenfotos und zu 50 % aus Hundefotos besteht, aber unsere Datenfilter entfernen 75 % der Hunde, aber nur 50 % der Katzen. Der endgültige Datensatz wäre ⅔ Katzen und ⅓ Hunde, und ein wahrscheinlichkeitsbasiertes generatives Modell, das auf diesem Datensatz trainiert wird, würde wahrscheinlich mehr Bilder von Katzen als von Hunden erzeugen. Wir können dieses Ungleichgewicht beheben, indem wir den Trainingsverlust jedes Bildes eines Hundes mit 2 multiplizieren und so den Effekt emulieren, dass jedes Hundebild zweimal wiederholt wird. Es stellt sich heraus, dass wir diesen Ansatz weitgehend automatisch auf unsere realen Datensätze und Modelle skalieren können – das heißt, wir müssen die Features, die wir neu gewichten möchten, nicht manuell auswählen.

Wir berechnen Gewichtungen für Bilder im gefilterten Datensatz unter Verwendung von Wahrscheinlichkeiten aus einem speziellen Klassifikator, ähnlich dem von verwendeten Ansatz Choi et al. (2019). Um diesen Klassifikator zu trainieren, tasten wir Bilder aus beiden Datensätzen einheitlich ab und sagen voraus, aus welchem ​​Datensatz das Bild stammt. Insbesondere sagt dieses Modell voraus P(ungefiltert|Bild), gegeben eine vorherige P(ungefiltert) = 0.5. In der Praxis möchten wir nicht, dass dieses Modell zu leistungsfähig ist, da es sonst die exakte Funktion lernen könnte, die von unseren Filtern implementiert wird. Stattdessen möchten wir, dass das Modell glatter ist als unsere ursprünglichen Datenfilter und breite Kategorien erfasst, die von den Filtern betroffen sind, während wir uns immer noch nicht sicher sind, ob ein bestimmtes Bild gefiltert wird oder nicht. Zu diesem Zweck trainierten wir eine lineare Sonde auf einem kleinen CLIP Modell.

Sobald wir einen Klassifikator haben, der die Wahrscheinlichkeit vorhersagt, dass ein Bild aus dem ungefilterten Datensatz stammt, müssen wir diese Vorhersage noch in eine Gewichtung für das Bild umwandeln. Nehmen wir zum Beispiel an, dass P(ungefiltert|Bild) = 0.8. Dies bedeutet, dass die Probe in den ungefilterten Daten mit 4-mal höherer Wahrscheinlichkeit gefunden wird als in den gefilterten Daten, und eine Gewichtung von 4 sollte das Ungleichgewicht korrigieren. Allgemeiner können wir das Gewicht verwenden P(ungefiltert|Bild)/P(gefiltert|Bild).

Wie gut mildert dieses Neugewichtungsschema tatsächlich die verstärkte Verzerrung? Als wir unser vorheriges gefiltertes Modell mit dem neuen Gewichtungsschema feinabgestimmt haben, entsprach das Verhalten des feinabgestimmten Modells viel besser dem ungefilterten Modell bei den zuvor gefundenen voreingenommenen Beispielen. Obwohl dies ermutigend war, wollten wir diese Minderung mithilfe unserer Keyword-basierten Bias-Heuristik gründlicher evaluieren. Um die Keyword-Häufigkeiten unter Berücksichtigung unseres neuen Gewichtungsschemas zu messen, können wir einfach jede Instanz eines Keywords im gefilterten Datensatz nach der Gewichtung der Stichprobe gewichten, die es enthält. Dadurch erhalten wir einen neuen Satz von Keyword-Häufigkeiten, die die Stichprobengewichtungen im gefilterten Datensatz widerspiegeln.

Bei den meisten von uns überprüften Keywords reduzierte das Neugewichtungsschema die durch die Filterung induzierte Häufigkeitsänderung. Für unsere vorherigen Beispiele „Mann“ und „Frau“ wurden die relativen Häufigkeitsreduktionen 1 % und –1 %, während ihre vorherigen Werte 14 % bzw. 6 % betrugen. Während diese Metrik nur ein Proxy für die tatsächliche Filterverzerrung ist, ist es beruhigend, dass unser bildbasiertes Neugewichtungsschema eine textbasierte Metrik tatsächlich so deutlich verbessert.

Wir untersuchen weiterhin verbleibende Verzerrungen in DALL·E 2, teilweise durch umfassendere Auswertungen des Verhaltens des Modells und Untersuchungen darüber, wie sich die Filterung auf die Verzerrung und die Fähigkeitsentwicklung auswirkte.

Bildaufstoßen verhindern

Wir haben beobachtet, dass unsere internen Vorgänger von DALL·E 2 Trainingsbilder manchmal wortwörtlich reproduzierten. Dieses Verhalten war unerwünscht, da wir möchten, dass DALL·E 2 standardmäßig originelle, einzigartige Bilder erstellt und nicht nur Teile bestehender Bilder „zusammenfügt“. Darüber hinaus kann die wörtliche Wiedergabe von Trainingsbildern rechtliche Fragen zu Urheberrechtsverletzungen, Eigentum und Datenschutz aufwerfen (wenn Fotos von Personen in Trainingsdaten vorhanden waren).

Um das Problem der Bildinsuffizienz besser zu verstehen, haben wir einen Datensatz mit Eingabeaufforderungen gesammelt, die häufig zu doppelten Bildern führten. Dazu haben wir ein trainiertes Modell verwendet, um Bilder für 50,000 Eingabeaufforderungen aus unserem Trainingsdatensatz zu proben, und die Proben nach Wahrnehmungsähnlichkeit mit dem entsprechenden Trainingsbild sortiert. Schließlich haben wir die besten Übereinstimmungen von Hand untersucht und nur ein paar hundert echte doppelte Paare aus den insgesamt 50 Eingabeaufforderungen gefunden. Obwohl die Regurgitationsrate weniger als 1 % zu betragen schien, hielten wir es aus den oben genannten Gründen für notwendig, die Rate auf 0 zu senken.

Als wir unseren Datensatz mit regurgitierten Bildern untersuchten, bemerkten wir zwei Muster. Erstens waren die Bilder fast alle einfache Vektorgrafiken, die aufgrund ihres geringen Informationsgehalts wahrscheinlich leicht zu merken waren. Zweitens, und was noch wichtiger ist, hatten alle Bilder im Trainingsdatensatz viele Beinahe-Duplikate. Beispielsweise könnte es eine Vektorgrafik geben, die wie eine Uhr aussieht, die die Zeit 1 Uhr anzeigt – aber dann würden wir ein Trainingsbeispiel entdecken, das dieselbe Uhr enthält, die 2 Uhr und dann 3 Uhr usw. anzeigt. Einmal Als wir dies erkannten, verwendeten wir eine verteilte Suche nach dem nächsten Nachbarn, um zu überprüfen, ob tatsächlich alle regurgitierten Bilder wahrnehmungsähnliche Duplikate im Datensatz aufwiesen. Andere Werk haben ein ähnliches Phänomen in großen Sprachmodellen beobachtet und festgestellt, dass die Datenduplizierung stark mit dem Auswendiglernen verbunden ist.

Das obige Ergebnis deutet darauf hin, dass wir das Regurgitationsproblem lösen könnten, wenn wir unseren Datensatz deduplizieren. Um dies zu erreichen, planten wir, ein neuronales Netzwerk zu verwenden, um Gruppen von Bildern zu identifizieren, die ähnlich aussahen, und dann alle bis auf ein Bild aus jeder Gruppe zu entfernen. Dazu müsste jedoch für jedes Bild geprüft werden, ob es sich um ein Duplikat jedes anderen Bildes im Datensatz handelt. Da unser gesamter Datensatz Hunderte von Millionen von Bildern enthält, müssten wir naiverweise Hunderte von Billiarden von Bildpaaren überprüfen, um alle Duplikate zu finden. Obwohl dies technisch machbar ist, insbesondere auf einem großen Rechencluster, haben wir eine viel effizientere Alternative gefunden, die zu einem Bruchteil der Kosten fast genauso gut funktioniert.

Überlegen Sie, was passiert, wenn wir unser Dataset clustern, bevor wir die Deduplizierung durchführen. Da benachbarte Proben oft in denselben Cluster fallen, würden die meisten Duplikatpaare die Cluster-Entscheidungsgrenzen nicht überschreiten. Wir könnten dann Proben innerhalb jedes Clusters deduplizieren, ohne nach Duplikaten außerhalb des Clusters zu suchen, während nur ein kleiner Bruchteil aller Duplikatpaare fehlt. Dies ist viel schneller als der naive Ansatz, da wir nicht mehr jedes einzelne Bildpaar überprüfen müssen. Als wir diesen Ansatz empirisch an einer kleinen Teilmenge unserer Daten getestet haben, wurden bei der Verwendung 85 % aller doppelten Paare gefunden K = 1024 Cluster.

Um die Erfolgsrate des obigen Algorithmus zu verbessern, haben wir uns eine wichtige Beobachtung zunutze gemacht: Wenn Sie verschiedene zufällige Teilmengen eines Datensatzes gruppieren, sind die resultierenden Cluster-Entscheidungsgrenzen oft sehr unterschiedlich. Wenn daher ein doppeltes Paar eine Clustergrenze für eine Clusterbildung der Daten überschreitet, kann dasselbe Paar in einer anderen Clusterbildung in einen einzelnen Cluster fallen. Je mehr Clusterings Sie versuchen, desto wahrscheinlicher ist es, dass Sie ein bestimmtes doppeltes Paar entdecken. In der Praxis haben wir uns für die Verwendung von fünf Clustern entschieden, was bedeutet, dass wir nach Duplikaten jedes Bildes in der Vereinigung von fünf verschiedenen Clustern suchen. In der Praxis wurden 97 % aller doppelten Paare in einer Teilmenge unserer Daten gefunden.

Überraschenderweise wurde fast ein Viertel unseres Datensatzes durch Deduplizierung entfernt. Als wir uns die fast doppelten Paare ansahen, die gefunden wurden, enthielten viele von ihnen bedeutende Änderungen. Erinnern Sie sich an das Uhrenbeispiel von oben: Der Datensatz kann viele Bilder derselben Uhr zu unterschiedlichen Tageszeiten enthalten. Während diese Bilder das Modell wahrscheinlich dazu bringen, sich das Aussehen dieser bestimmten Uhr zu merken, könnten sie dem Modell auch helfen, zu lernen, zwischen den Tageszeiten auf einer Uhr zu unterscheiden. Angesichts der Menge an Daten, die entfernt wurden, waren wir besorgt, dass das Entfernen von Bildern wie diesem die Leistung des Modells beeinträchtigt haben könnte.

Um die Auswirkung der Deduplizierung auf unsere Modelle zu testen, haben wir zwei Modelle mit identischen Hyperparametern trainiert: eines mit dem vollständigen Datensatz und eines mit der deduplizierten Version des Datensatzes. Um die Modelle zu vergleichen, haben wir die gleichen menschlichen Bewertungen verwendet, die wir zur Bewertung unseres ursprünglichen GLIDE-Modells verwendet haben. Überraschenderweise fanden wir, dass menschliche Bewerter etwas bevorzugt Das Modell wurde mit deduplizierten Daten trainiert, was darauf hindeutet, dass die große Menge redundanter Bilder im Datensatz die Leistung tatsächlich beeinträchtigte.

Nachdem wir ein Modell mit deduplizierten Daten trainiert hatten, führten wir die Regurgitationssuche erneut durch, die wir zuvor mit über 50 Eingabeaufforderungen aus dem Trainingsdatensatz durchgeführt hatten. Wir haben festgestellt, dass das neue Modell nie ein Trainingsbild wieder hervorgebracht hat, wenn es die genaue Eingabeaufforderung für das Bild aus dem Trainingsdatensatz erhalten hat. Um diesen Test noch einen Schritt weiter zu führen, haben wir für jedes der 50 generierten Bilder eine Suche nach dem nächsten Nachbarn über den gesamten Trainingsdatensatz durchgeführt. Auf diese Weise dachten wir, wir könnten das Modell dabei erwischen, wie es ein anderes Bild als das mit einer bestimmten Eingabeaufforderung verknüpfte wieder hervorruft. Selbst bei dieser gründlicheren Überprüfung haben wir nie einen Fall von Bildinsuffizienz gefunden.

Nächste Schritte

Während alle oben diskutierten Minderungen einen bedeutenden Fortschritt in Richtung unseres Ziels darstellen, die mit DALL·E 2 verbundenen Risiken zu reduzieren, gibt es bei jeder Minderung noch Raum für Verbesserungen:

  • Bessere Pre-Training-Filter könnten es uns ermöglichen, DALL·E 2 mit mehr Daten zu trainieren und möglicherweise Verzerrungen im Modell weiter zu reduzieren. Unsere aktuellen Filter sind auf eine niedrige Fehlrate auf Kosten vieler Fehlalarme abgestimmt. Infolgedessen haben wir ungefähr 5 % unseres gesamten Datensatzes herausgefiltert, obwohl die meisten dieser gefilterten Bilder überhaupt nicht gegen unsere Inhaltsrichtlinie verstoßen. Die Verbesserung unserer Filter könnte es uns ermöglichen, einige dieser Trainingsdaten zurückzugewinnen.
  • Bias wird in vielen Phasen der Systementwicklung und -bereitstellung eingeführt und potenziell verstärkt. Die Bewertung und Minderung der Verzerrung in Systemen wie DALL·E 2 und des durch diese Verzerrung verursachten Schadens ist ein wichtiges interdisziplinäres Problem, das wir bei OpenAI im Rahmen unserer umfassenderen Mission weiterhin untersuchen. Unsere diesbezügliche Arbeit umfasst das Erstellen von Bewertungen, um das Problem besser zu verstehen, das Kuratieren neuer Datensätze und das Anwenden von Techniken wie menschlichem Feedback und Feinabstimmung, um robustere und repräsentativere Technologien zu entwickeln.
  • Es ist auch von entscheidender Bedeutung, dass wir das Auswendiglernen und die Verallgemeinerung in Deep-Learning-Systemen weiter untersuchen. Obwohl die Deduplizierung ein guter erster Schritt ist, um das Auswendiglernen zu verhindern, sagt sie uns nicht alles, was es darüber zu lernen gibt, warum oder wie Modelle wie DALL·E 2 Trainingsdaten auswendig lernen.
spot_img

Neueste Intelligenz

spot_img