Zephyrnet-Logo

Kern der Sache: Entmystifizierung des Kopierens in der Ausbildung von LLMs – DATAVERSITY

Datum:

Wenn man auf die letzten 15 Monate zurückblickt, haben die Fortschritte, die bei generativer KI und großen Sprachmodellen (LLMs) nach der Einführung und Verfügbarkeit von ChatGPT für die Öffentlichkeit erzielt wurden, die Schlagzeilen dominiert. 

Der Baustein für diesen Fortschritt war die Transformer-Modellarchitektur, die von einem Team von Google-Forschern in einem Artikel mit dem Titel „Aufmerksamkeit ist alles was Sie brauchen.“ Wie der Titel vermuten lässt, ist ein Schlüsselmerkmal aller Transformer-Modelle der Mechanismus der Aufmerksamkeit, der in der Arbeit wie folgt definiert wird:

„Eine Aufmerksamkeitsfunktion kann als Zuordnung einer Abfrage und einer Reihe von Schlüssel-Wert-Paaren zu einer Ausgabe beschrieben werden, wobei Abfrage, Schlüssel, Werte und Ausgabe allesamt Vektoren sind. Die Ausgabe wird als gewichtete Summe der Werte berechnet, wobei die jedem Wert zugewiesene Gewichtung durch eine Kompatibilitätsfunktion der Abfrage mit dem entsprechenden Schlüssel berechnet wird.“

Ein Merkmal generativer KI-Modelle ist der massive Verbrauch von Dateneingaben, die aus Text, Bildern, Audiodateien, Videodateien oder einer beliebigen Kombination der Eingaben bestehen können (ein Fall, der üblicherweise als „multimodal“ bezeichnet wird). Aus urheberrechtlicher Sicht ist eine wichtige Frage (von vielen wichtigen Fragen), ob Schulungsmaterialien im Urheberrecht aufbewahrt werden großes Sprachmodell (LLM), hergestellt von verschiedenen LLM-Anbietern. Um diese Frage beantworten zu können, müssen wir verstehen, wie die Textmaterialien verarbeitet werden. Im Folgenden finden Sie eine kurze, nicht-technische Beschreibung genau dieses Aspekts der LLM-Ausbildung, die sich auf den Text konzentriert. 

Menschen kommunizieren in natürlicher Sprache, indem sie Wörter in Sequenzen anordnen; Die Regeln für die Reihenfolge und die spezifische Form eines Wortes werden von der jeweiligen Sprache (z. B. Englisch) vorgegeben. Ein wesentlicher Teil der Architektur aller Softwaresysteme, die Text verarbeiten (und damit aller KI-Systeme, die dies tun), ist die Art und Weise, wie dieser Text dargestellt wird, damit die Funktionen des Systems möglichst effizient ausgeführt werden können. Daher ist ein wichtiger Schritt bei der Verarbeitung einer Texteingabe in Sprachmodellen die Aufteilung der Benutzereingabe in spezielle „Wörter“, die das KI-System verstehen kann. Diese besonderen Wörter werden „Tokens“ genannt. Die dafür verantwortliche Komponente wird „Tokenizer“ genannt. Es gibt viele Arten von Tokenizern. OpenAI und Azure OpenAI verwenden beispielsweise eine Subwort-Tokenisierungsmethode namens „Byte-Pair Encoding (BPE)“ für ihre auf Generative Pretrained Transformer (GPT) basierenden Modelle. BPE ist eine Methode, die die am häufigsten vorkommenden Zeichen- oder Bytepaare zu einem einzigen Token zusammenführt, bis eine bestimmte Anzahl von Token oder eine Vokabulargröße erreicht ist. Je größer der Wortschatz, desto vielfältiger und ausdrucksvoller sind die Texte, die das Modell generieren kann.

Sobald das KI-System den Eingabetext in Token abgebildet hat, kodiert es die Token in Zahlen und wandelt die Sequenzen um, die es als Vektoren verarbeitet hat, die als „Worteinbettungen“ bezeichnet werden. Ein Vektor ist eine geordnete Menge von Zahlen – Sie können ihn sich als Zeile oder Spalte in einer Tabelle vorstellen. Diese Vektoren sind Darstellungen von Token, die ihre ursprüngliche Darstellung in natürlicher Sprache, die als Text angegeben wurde, beibehalten. Es ist wichtig, die Rolle von Worteinbettungen im Hinblick auf das Urheberrecht zu verstehen, da die Einbettungen Darstellungen (oder Kodierungen) ganzer Sätze oder sogar Absätze und daher in Vektorkombinationen sogar ganzer Dokumente in einem hochdimensionalen Vektorraum bilden. Durch diese Einbettungen erfasst und speichert das KI-System die Bedeutung und die Beziehungen von Wörtern aus der natürlichen Sprache. 

Einbettungen werden in praktisch jeder Aufgabe verwendet, die ein generatives KI-System ausführt (z. B. Textgenerierung, Textzusammenfassung, Textklassifizierung, Textübersetzung, Bildgenerierung, Codegenerierung usw.). Worteinbettungen werden normalerweise in Vektordatenbanken gespeichert, eine detaillierte Beschreibung aller Speicheransätze würde jedoch den Rahmen dieses Beitrags sprengen, da eine Vielzahl von Anbietern, Prozessen und Praktiken im Einsatz sind.

Wie bereits erwähnt, basieren fast alle LLMs auf der Transformer-Architektur, die den Aufmerksamkeitsmechanismus aufruft. Letzteres ermöglicht es der KI-Technologie, ganze Sätze und sogar Absätze als Ganzes und nicht nur als reine Zeichenfolgen anzuzeigen. Dadurch kann die Software die verschiedenen Kontexte erfassen, in denen ein Wort vorkommen kann, und da diese Kontexte durch die in der Schulung verwendeten Werke bereitgestellt werden, einschließlich urheberrechtlich geschützter Werke, sind sie nicht willkürlich. Auf diese Weise bleibt die ursprüngliche Verwendung der Wörter, der Ausdruck des Originalwerks, im KI-System erhalten. Es kann reproduziert und analysiert werden und kann die Grundlage für neue Ausdrücke bilden (die je nach den spezifischen Umständen im Urheberrechtsjargon als „abgeleitetes Werk“ bezeichnet werden können). 

LLMs behalten den Ausdruck der Originalwerke bei, an denen sie ausgebildet wurden. Sie erstellen interne Darstellungen des Textes in eigens dafür erstellten Vektorräumen und könnten bei entsprechender Eingabe als Auslöser die Originalwerke reproduzieren, die in ihrer Ausbildung verwendet wurden. KI-Systeme profitieren dauerhaft von den Inhalten, einschließlich urheberrechtlich geschützter Inhalte, die zum Trainieren der LLMs verwendet werden, auf denen sie basieren. LLMs erkennen den Kontext von Wörtern basierend auf dem Ausdruck von Wörtern im Originalwerk. Und dieser Kontext kommt dem KI-System in Tausenden oder Millionen von urheberrechtlich geschützten Werken, die im Training verwendet werden, kumulativ zugute. Diese Originalwerke können vom KI-System neu erstellt werden, da sie in Vektoren – Vektorraumdarstellungen von Token, die ihre ursprüngliche Darstellung in natürlicher Sprache bewahren – des urheberrechtlich geschützten Werks gespeichert sind. Aus urheberrechtlicher Sicht ist die Feststellung, ob Schulungsmaterialien in LLMs aufbewahrt werden, von zentraler Bedeutung, und es ist klar, dass die Antwort auf diese Frage „Ja“ lautet.

spot_img

Neueste Intelligenz

spot_img