Zephyrnet-Logo

Meta gibt die Verwendung eines „raubkopierten“ Buchdatensatzes zum Trainieren von KI zu

Datum:

Meta-Logo

Meta-LogoIn den letzten Monaten haben Rechteinhaber aller Art Klagen gegen Unternehmen eingereicht, die KI-Modelle entwickeln.

Die Liste umfasst Plattenfirmen, einzelne Autoren, bildende Künstler und neuerdings auch die New York Times. Diese Rechteinhaber widersprechen allesamt der vermeintlichen Nutzung ihrer Werke ohne angemessene Vergütung.

Mehrere der Klagen Die von Buchautoren eingereichten Dokumente enthalten ebenfalls eine Pirateriekomponente. In den Fällen wird behauptet, dass Technologieunternehmen, darunter Meta und OpenAI, den umstrittenen Books3-Datensatz zum Trainieren ihrer Modelle verwendet hätten.

Der Books3-Datensatz weist eindeutig einen Piraterieaspekt auf. Es wurde von einem KI-Forscher erstellt Shawn Presser im Jahr 2020, der die Bibliothek der „Piraten“-Site Bibliotik löschte. Dieses Bucharchiv wurde vom Kollektiv für digitale Archivierung öffentlich gehostet.Das Auge‘ damals, neben verschiedenen anderen Datenquellen.

Bibliotik und andere Quellen, die zuvor bei The Eye gehostet wurden
das Auge

Die allgemeine Vision war, dass die Klartextsammlung von mehr als 195,000 Büchern, die fast 37 GB groß ist, KI-Enthusiasten dabei helfen könnte, bessere Modelle zu erstellen, was Innovationen vorantreiben würde.

KI-Boom löst Urheberrechtsprobleme aus

Presser hat sich nicht geirrt, aber der Datensatz hat nicht nur KI-Startups geholfen. Mehrere der weltweit größten Technologieunternehmen haben es ebenfalls entdeckt und zur Verbesserung ihrer eigenen Sprachmodelle genutzt.

Books3 war jahrelang weiterhin frei und allgemein verfügbar und unterstützte KI-Forscher und -Enthusiasten auf der ganzen Welt. Als der KI-Boom jedoch letztes Jahr den Mainstream erreichte, wurden Buchautoren und Verleger aufmerksam und ergriffen daraufhin Gegenmaßnahmen.

Zum Beispiel die dänische Anti-Piraterie-Gruppe Rights Alliance forderte das Auge auf, es zu entfernen ihr Exemplar von Books3, was auch der Fall war. Der Datensatz sei auch von der Website des KI-Unternehmens Huggingface verschwunden Urheberrechtsverletzung gemeldet, während andere ihre Optionen überlegten.

Wie zuvor berichtet von Wired informierte Bloomberg Rights Alliance darüber, dass es nicht plant, zukünftige Versionen seines BloombergGPT-Modells mit Books3 zu trainieren, und andere Unternehmen haben wahrscheinlich hinter verschlossenen Türen ähnliche Entscheidungen getroffen.

Meta gibt die Verwendung von Books3 zu

Dies sind bemerkenswerte Entwicklungen, aber nicht alle Beschwerden können mit Versprechen gelöst werden. Es laufen weiterhin mehrere Klagen gegen OpenAI und Meta, in denen den Unternehmen vorgeworfen wird, den Books3-Datensatz zum Trainieren ihrer Modelle zu verwenden.

Während OpenAI und Meta bei der öffentlichen Diskussion des Themas sehr zurückhaltend sind, lieferte Meta diese Woche vor einem kalifornischen Bundesgericht mehr Kontext.

Als Reaktion auf eine Klage der Autorin/Komikerin Sarah Silverman, des Autors Richard Kadrey und anderer Rechteinhaber gibt der Technologieriese zu, dass „Teile von Books3“ zum Trainieren des Llama-KI-Modells vor seiner öffentlichen Veröffentlichung verwendet wurden.

„Meta gibt zu, dass es neben vielen anderen Materialien Teile des Books3-Datensatzes verwendet hat, um Lama 1 und Lama 2 zu trainieren“, schreibt Meta in seiner Antwort.

Meta-Books3-Antwort

Dieses Eingeständnis ist keine große Überraschung, da mehrere Quellen, darunter auch Forschungsarbeiten, im Wesentlichen zu derselben Schlussfolgerung kamen. Obwohl Meta die Verwendung von Books3 nicht bestreitet, bleibt die Frage, ob das Unternehmen damit Unrecht hatte.

Meta bestreitet Urheberrechtsverletzung

Metas Antwort gibt die Verwendung von Books3 zu, bestreitet jedoch verschiedene andere Behauptungen und Behauptungen. Die Autoren behaupteten beispielsweise, Meta habe seine KI ohne Erlaubnis auf urheberrechtlich geschützte Werke trainiert. Die Antwort bestreitet dies nicht direkt, stellt jedoch fest, dass eine Einwilligung oder Entschädigung nicht unbedingt erforderlich ist.

„Soweit eine Antwort als erforderlich erachtet wird, bestreitet Meta, dass für die Verwendung urheberrechtlich geschützter Werke zum Trainieren von Llama eine Zustimmung, eine Anerkennung oder eine Entschädigung erforderlich war“, schreibt Meta.

Die Autoren erklärten weiter, dass ihre Bücher, soweit sie in der Books3-Datenbank auftauchen, als „verletzte Werke“ bezeichnet würden. Dies veranlasste Meta, erneut zu dementieren. „Meta bestreitet, die angeblichen Urheberrechte der Kläger verletzt zu haben“, schreibt das Unternehmen.

Faire Nutzung

Metas Antwort liefert nicht viele zusätzliche Details und die vollständige Verteidigung wird im Verlauf des Falles bekannt gegeben. Es ist jedoch klar, dass das Unternehmen zumindest teilweise auf eine Fair-Use-Verteidigung setzen will.

„Soweit Meta unbefugte Kopien der registrierten urheberrechtlich geschützten Werke der Kläger angefertigt hat, stellen diese Kopien eine faire Nutzung gemäß 17 U.S.C. dar. § 107“, stellt Meta fest.

Es wird erwartet, dass der Fair-Use-Aspekt ein wesentlicher Bestandteil dieser und anderer KI-Klagen sein wird. Dies gilt nicht nur für „Raubkopien“-Quellen, sondern auch für die Nutzung von Inhalten, die über offizielle Kanäle veröffentlicht, aber ohne ausdrückliche Genehmigung verwendet werden.

Diese Rechtsstreitigkeiten befinden sich noch im Anfangsstadium, könnten aber bei Bedarf letztendlich ihren Weg vor den Obersten Gerichtshof finden. KI-Unternehmen haben betont, dass der Fortschritt behindert wird, wenn die Regeln und Vorschriften zu streng sind.

Anfang dieser Woche erwähnte OpenAI, dass eine faire Nutzung sowohl notwendig als auch entscheidend sei Aufbau wettbewerbsfähiger KI-Modelle, wobei darauf hingewiesen wird, dass Nachrichtenorganisationen sich auf Wunsch abmelden können. Natürlich gab es diese Option vorher nicht, schon gar nicht für die Books3-Datenbank.

Wir gehen davon aus, dass Presser, als er Books3 erstellte, nie damit gerechnet hatte, dass der Datensatz im Mittelpunkt bahnbrechender Rechtsstreitigkeiten stehen würde, die die Zukunft der KI bestimmen könnten. Die Verhältnisse haben sich jedoch geändert, und die gut gemeinte „Archivierungs“-Bemühung ist nun Teil eines großen Urheberrechtskonflikts.

-

Eine Kopie von Metas Antwort auf die erste konsolidierte geänderte Beschwerde des Autors ist verfügbar hier (pdf)

spot_img

Neueste Intelligenz

spot_img