Zephyrnet-Logo

OpenAI: Es ist unmöglich, erstklassige KI zu trainieren und Urheberrechte zu umgehen

Datum:

OpenAI sagte, es sei „unmöglich“, erstklassige neuronale Netze aufzubauen, die den heutigen Anforderungen entsprechen, ohne urheberrechtlich geschützte Werke von Menschen zu verwenden. Das von Microsoft unterstützte Labor, das davon ausgeht, dass es diese Inhalte rechtmäßig zum Trainieren seiner Modelle sammelt, sagte, die Verwendung von nicht urheberrechtlich geschütztem Public-Domain-Material würde zu minderwertiger KI-Software führen.

Diese Behauptung kommt zu einer Zeit, in der die Welt des maschinellen Lernens kopfüber an der Mauer des Urheberrechts sprintet. Erst diese Woche kam ein IEEE-Bericht zu dem Schluss, dass DALL-E 3 von Midjourney und OpenAI, zwei der wichtigsten KI-Dienste zur Umwandlung von Textaufforderungen in Bilder, auf der Grundlage ihrer Trainingsdaten urheberrechtlich geschützte Szenen aus Filmen und Videospielen nachbilden können.

Das Studie, gemeinsam verfasst von Gary Marcus, einem KI-Experten und Kritiker, und Reid Southen, einem digitalen Illustrator, dokumentiert mehrere Fälle von „plagiierten Ausgaben“, in denen OpenAI und DALL-E 3 im Wesentlichen ähnliche Versionen von Szenen aus Filmen und Bildern berühmter Menschen rendern Schauspieler und Videospielinhalte.

Marcus und Southen sagen, es sei fast sicher, dass Midjourney und OpenAI ihre jeweiligen KI-Modelle zur Bilderzeugung auf urheberrechtlich geschütztem Material trainiert hätten.

Ob das legal ist und ob KI-Anbieter oder ihre Kunden Gefahr laufen, haftbar gemacht zu werden, bleibt umstritten. Die Ergebnisse des Berichts könnten jedoch diejenigen unterstützen, die Midjourney und den DALL-E-Hersteller OpenAI wegen Urheberrechtsverletzung verklagen.

Wenn Benutzer ein Bild erstellen, wissen sie möglicherweise nicht, ob sie gegen das Urheberrecht verstoßen

„Sowohl OpenAI als auch Midjourney sind durchaus in der Lage, Materialien zu produzieren, die scheinbar Urheberrechte und Marken verletzen“, schrieben sie. „Diese Systeme informieren die Benutzer nicht, wenn sie dies tun. Sie geben keine Auskunft über die Provenienz der von ihnen produzierten Bilder. Wenn Benutzer ein Bild erstellen, wissen sie möglicherweise nicht, ob sie gegen das Urheberrecht verstoßen.“

Keines der Unternehmen hat die Trainingsdaten, die zur Erstellung ihrer KI-Modelle verwendet wurden, vollständig offengelegt.

Es ist nicht nur digitale Künstler herausfordernde KI-Unternehmen. Die New York Times kürzlich verklagte OpenAI weil sein ChatGPT-Textmodell nahezu wörtliche Kopien der Paywall-Artikel der Zeitung ausspuckt. Buchautoren haben ähnliche Ansprüche geltend gemacht Software-Entwickler.

Vor Forschungsprojekte hat darauf hingewiesen, dass ChatGPT von OpenAI dazu überredet werden kann, Trainingstexte zu reproduzieren. Und diejenigen, die Microsoft und GitHub verklagen, behaupten, dass das Copilot-Codierungsassistentenmodell den Code mehr oder weniger wörtlich reproduzieren werde.

Southen stellte fest, dass Midjourney Kunden, die rechtsverletzende Inhalte erstellen, Gebühren berechnet und durch Abonnementeinnahmen profitiert. „MJ [Midjourney]-Benutzer müssen die Bilder nicht verkaufen, damit möglicherweise eine Urheberrechtsverletzung vorliegt, MJ profitiert bereits von der Erstellung“, er meinte, was ein im IEEE-Bericht vorgebrachtes Argument widerspiegelt.

Auch OpenAI erhebt eine Abonnementgebühr und profitiert somit in gleicher Weise. Weder OpenAI noch Midjourney antworteten auf Anfragen nach Kommentaren.

Allerdings veröffentlichte OpenAI am Montag eine Blog-Post Er ging auf die Klage der New York Times ein, die der KI-Verkäufer für unbegründet hielt. Erstaunlicherweise sagte das Labor, dass es sich um einen „Bug“ handele, wenn seine neuronalen Netze rechtsverletzende Inhalte erzeugten.

Insgesamt argumentierte der Emporkömmling heute: Er arbeitet aktiv mit Nachrichtenorganisationen zusammen; Schulungen zu urheberrechtlich geschützten Daten qualifizieren sich für die Fair-Use-Verteidigung nach dem Urheberrecht. „‚Aufstoßen‘ ist ein seltener Fehler, den wir beseitigen wollen“; und die New York Times hat ausgewählte Beispiele für Textwiedergabe ausgewählt, die kein typisches Verhalten widerspiegeln.

Das Gesetz wird entscheiden

Tyler Ochoa, Professor an der Rechtsabteilung der Santa Clara University in Kalifornien, erzählte Das Register dass die Ergebnisse des IEEE-Berichts Prozessparteien bei Urheberrechtsansprüchen zwar wahrscheinlich helfen werden, dies aber nicht tun sollte – weil die Autoren des Artikels seiner Ansicht nach das Geschehen falsch dargestellt haben.

„Sie schreiben: ‚Können bildgenerierende Modelle dazu gebracht werden, plagiierte Ergebnisse auf der Grundlage urheberrechtlich geschützter Materialien zu produzieren?‘ … [Wir haben herausgefunden, dass die Antwort eindeutig „Ja“ lautet, auch ohne direkt nach plagiierenden Ergebnissen zu fragen.‘“

Ochoa stellte diese Schlussfolgerung in Frage und argumentierte, dass die von den Autoren des Berichts eingegebenen Eingabeaufforderungen „zeigen, dass sie tatsächlich direkt zu plagiierten Ergebnissen auffordern.“ Jede einzelne Eingabeaufforderung erwähnt den Titel eines bestimmten Films, gibt das Seitenverhältnis an und in allen bis auf einen Fall die Wörter „Film“ und „Screenshot“ oder „Screencap“. (Die einzige Ausnahme beschreibt das Bild, das reproduziert werden wollte. )“

Der Rechtsprofessor sagte, die Frage des Urheberrechts bestehe darin, zu bestimmen, wer für diese plagiierten Ergebnisse verantwortlich sei: die Ersteller des KI-Modells oder die Personen, die das KI-Modell gebeten hätten, eine beliebte Szene zu reproduzieren.

„Das generative KI-Modell ist in der Lage, Originalausgaben zu erzeugen und bei entsprechender Aufforderung auch Szenen zu reproduzieren, die Szenen aus urheberrechtlich geschützten Eingaben ähneln“, erklärte Ochoa. „Dies sollte als Fall einer mittelbaren Rechtsverletzung analysiert werden: Die Person, die das Modell veranlasst hat, ist der Hauptrechtsverletzer, und die Ersteller des Modells haften nur dann, wenn sie von der Hauptrechtsverletzung Kenntnis erlangt haben und keine angemessenen Schritte unternommen haben, um diese zu unterbinden.“ Es."

Laut Ochoa reproduzieren generative KI-Modelle mit größerer Wahrscheinlichkeit bestimmte Bilder, wenn ihr Trainingsdatensatz mehrere Instanzen dieser Bilder enthält.

„In diesem Fall ist es höchst unwahrscheinlich, dass die Trainingsdaten ganze Filme umfassten; Es ist weitaus wahrscheinlicher, dass die Trainingsdaten Standbilder aus den Filmen enthielten, die als Werbefotos für den Film verbreitet wurden“, sagte er. „Diese Bilder wurden in den Trainingsdaten mehrfach reproduziert, weil Medienunternehmen dazu ermutigt wurden, diese Bilder zu Werbezwecken zu verbreiten, und dies auch taten.

„Es wäre grundsätzlich unfair für einen Urheberrechtsinhaber, die weite Verbreitung von Standbildern zu Werbezwecken zu fördern und sich dann darüber zu beschweren, dass diese Bilder von einer KI imitiert werden, weil die Trainingsdaten mehrere Kopien derselben Bilder enthielten.“

Ochoa sagte, es gebe Schritte, um ein solches Verhalten von KI-Modellen einzuschränken. „Die Frage ist, ob sie das tun sollten, wenn die Person, die die Eingabeaufforderung eingegeben hat, eindeutig wollte, dass die KI ein erkennbares Bild reproduziert, und die Filmstudios, die die ursprünglichen Standbilder produziert haben, eindeutig wollten, dass diese Standbilder weit verbreitet werden.“ ," er sagte.

„Eine bessere Frage wäre: Wie oft passiert das, wenn in der Aufforderung kein bestimmter Film erwähnt oder eine bestimmte Figur oder Szene beschrieben wird? Ich denke, ein unvoreingenommener Forscher würde wahrscheinlich feststellen, dass die Antwort selten (vielleicht fast nie) lautet.“

Dennoch scheinen urheberrechtlich geschützte Inhalte ein wesentlicher Treibstoff dafür zu sein, dass diese Modelle gut funktionieren.

OpenAI verteidigt sich gegenüber Lords

Als Antwort auf eine Anfrage In den Risiken und Chancen von KI-Modellen präsentierte OpenAI vom Kommunikations- und Digitalausschuss des britischen Oberhauses eine Einreichung [PDF] warnt davor, dass seine Modelle ohne Schulung zu urheberrechtlich geschützten Inhalten nicht funktionieren.

„Da das Urheberrecht heute praktisch jede Art menschlichen Ausdrucks abdeckt – einschließlich Blogbeiträge, Fotos, Forenbeiträge, Teile von Softwarecode und Regierungsdokumente – wäre es unmöglich, die führenden KI-Modelle von heute zu trainieren, ohne urheberrechtlich geschütztes Material zu verwenden“, sagte das Superlabor .

„Die Beschränkung der Trainingsdaten auf gemeinfreie Bücher und Zeichnungen, die vor mehr als einem Jahrhundert erstellt wurden, könnte zu einem interessanten Experiment führen, würde aber keine KI-Systeme liefern, die den Bedürfnissen der heutigen Bürger gerecht werden.“

Das KI-Unternehmen sagte, es glaube, dass es das Urheberrecht einhalte und dass Schulungen zu urheberrechtlich geschütztem Material rechtmäßig seien, obwohl es zulasse, dass „noch viel zu tun ist, um Urheber zu unterstützen und zu stärken“.

Dieses Gefühl, das wie eine diplomatische Anerkennung ethischer Bedenken hinsichtlich der Entschädigung für die angeblich faire Nutzung urheberrechtlich geschützter Werke klingt, sollte in Verbindung mit der Behauptung des IEEE-Berichts betrachtet werden, dass „wir Beweise dafür gefunden haben, dass ein leitender Softwareentwickler bei Midjourney daran beteiligt war.“ eine Unterhaltung im Februar 2022 darüber, wie man das Urheberrecht umgehen kann, indem man Daten „durch einen fein abgestimmten Kodex“ „wäschet“.

Marcus, Co-Autor des IEEE-Berichts, äußerte seine Skepsis gegenüber den Bemühungen von OpenAI, im Vereinigten Königreich grünes Licht für seine aktuellen Geschäftspraktiken zu erhalten.

„Grobe Übersetzung: Wir werden nicht sagenhaft reich, wenn Sie uns nicht stehlen lassen, also machen Sie Diebstahl bitte nicht zu einem Verbrechen!“ schrieb er in den sozialen Medien Post. „Lass uns nicht bezahlen Zulassung Gebühren, auch nicht! Sicher, Netflix zahlt möglicherweise Milliarden pro Jahr an Lizenzgebühren, aber we sollte nicht sein! Mehr Geld für uns, Moar!“

OpenAI hat angeboten, Unternehmenskunden von ChatGPT und API zu entschädigen gegen urheberrechtliche Ansprüche, jedoch nicht, wenn der Kunde oder die Endbenutzer des Kunden „wussten oder hätten wissen müssen, dass die Ausgabe einen Verstoß darstellt oder wahrscheinlich einen Verstoß darstellt“ oder wenn der Kunde Sicherheitsfunktionen umgangen hat, unter anderem Einschränkungen. Wenn man DALL-E 3 daher bittet, eine berühmte Filmszene nachzubilden – von der Benutzer wissen sollten, dass sie wahrscheinlich urheberrechtlich geschützt ist –, wäre dies kein Anspruch auf Entschädigung.

Midjourney hat den gegenteiligen Ansatz gewählt und versprochen, an Verstößen beteiligte Kunden aufzuspüren und zu verklagen, um die Rechtskosten aus den damit verbundenen Ansprüchen zu erstatten.

„Wenn Sie wissentlich das geistige Eigentum einer anderen Person verletzen und uns das Geld kostet, werden wir Sie suchen und das Geld von Ihnen eintreiben“, sagt Midjourney Nutzungsbedingungen Zustand. „Vielleicht machen wir auch andere Dinge, zum Beispiel versuchen wir, ein Gericht dazu zu bringen, Ihnen unsere Anwaltskosten zahlen zu lassen. Tu es nicht.“ ®

spot_img

Neueste Intelligenz

spot_img