Zephyrnet-logo

Kern van de zaak: het demystificeren van kopiëren in de opleiding van LLM's – DATAVERSITY

Datum:

Terugkijkend op de afgelopen 15 maanden heeft de vooruitgang die is geboekt op het gebied van generatieve AI en grote taalmodellen (LLM's) na de introductie en beschikbaarheid van ChatGPT voor het publiek de krantenkoppen gedomineerd. 

De bouwsteen voor deze vooruitgang was de Transformer-modelarchitectuur, geschetst door een team van Google-onderzoekers in een artikel met de titel ‘Aandacht is alles wat je nodig hebt.” Zoals de titel suggereert, is een belangrijk kenmerk van alle Transformer-modellen het aandachtsmechanisme, dat in het artikel als volgt wordt gedefinieerd:

“Een aandachtsfunctie kan worden omschreven als het in kaart brengen van een vraag en een reeks sleutel-waardeparen aan een uitvoer, waarbij de vraag, sleutels, waarden en uitvoer allemaal vectoren zijn. De uitvoer wordt berekend als een gewogen som van de waarden, waarbij het gewicht dat aan elke waarde wordt toegewezen, wordt berekend door een compatibiliteitsfunctie van de query met de bijbehorende sleutel.”

Een kenmerk van generatieve AI-modellen is het enorme verbruik van gegevensinvoer, die kan bestaan ​​uit tekst, afbeeldingen, audiobestanden, videobestanden of een combinatie van de invoer (een geval dat gewoonlijk ‘multimodaal’ wordt genoemd). Vanuit auteursrechtperspectief is een belangrijke vraag (van vele belangrijke vragen) of trainingsmateriaal wordt bewaard in de groot taalmodel (LLM) geproduceerd door verschillende LLM-leveranciers. Om die vraag te helpen beantwoorden, moeten we begrijpen hoe het tekstmateriaal wordt verwerkt. Wat volgt is een korte, niet-technische beschrijving van precies dat aspect van de LLM-training. 

Mensen communiceren in natuurlijke taal door woorden in reeksen te plaatsen; de regels over de volgorde en de specifieke vorm van een woord worden bepaald door de specifieke taal (bijvoorbeeld Engels). Een essentieel onderdeel van de architectuur voor alle softwaresystemen die tekst verwerken (en dus voor alle AI-systemen die dat doen) is hoe die tekst moet worden weergegeven, zodat de functies van het systeem zo efficiënt mogelijk kunnen worden uitgevoerd. Daarom is een belangrijke stap bij de verwerking van tekstuele invoer in taalmodellen het opsplitsen van de gebruikersinvoer in speciale ‘woorden’ die het AI-systeem kan begrijpen. Deze speciale woorden worden ‘tokens’ genoemd. Het onderdeel dat daarvoor verantwoordelijk is, wordt een ‘tokenizer’ genoemd. Er zijn veel soorten tokenizers. OpenAI en Azure OpenAI gebruiken bijvoorbeeld een tokenisatiemethode voor subwoorden genaamd "Byte-Pair Encoding (BPE)" voor hun op Generative Pretrained Transformer (GPT) gebaseerde modellen. BPE is een methode die de meest voorkomende karakterparen of bytes samenvoegt tot één token, totdat een bepaald aantal tokens of een vocabulairegrootte is bereikt. Hoe groter de woordenschat, hoe diverser en expressiever de teksten die het model kan genereren.

Zodra het AI-systeem de invoertekst in tokens heeft omgezet, codeert het de tokens in cijfers en converteert het de reeksen die het heeft verwerkt als vectoren die 'woordinsluitingen' worden genoemd. Een vector is een geordende reeks getallen – je kunt het zien als een rij of kolom in een tabel. Deze vectoren zijn representaties van tokens die hun oorspronkelijke natuurlijke taalrepresentatie behouden die als tekst werd gegeven. Het is belangrijk om de rol van woordinsluitingen te begrijpen als het gaat om auteursrecht, omdat de insluitingen representaties (of coderingen) vormen van hele zinnen, of zelfs alinea's, en daarom, in vectorcombinaties, zelfs hele documenten in een hoogdimensionale vectorruimte. Het is door deze inbedding dat het AI-systeem de betekenis en relaties van woorden uit de natuurlijke taal vastlegt en opslaat. 

Inbedding wordt gebruikt bij vrijwel elke taak die een generatief AI-systeem uitvoert (bijvoorbeeld het genereren van tekst, het samenvatten van tekst, het classificeren van tekst, het vertalen van teksten, het genereren van afbeeldingen, het genereren van code, enzovoort). Word-insluitingen worden meestal opgeslagen in vectordatabases, maar een gedetailleerde beschrijving van alle benaderingen van opslag valt buiten het bestek van dit bericht, aangezien er een grote verscheidenheid aan leveranciers, processen en praktijken in gebruik is.

Zoals gezegd zijn bijna alle LLM's gebaseerd op de Transformer-architectuur, die een beroep doet op het aandachtsmechanisme. Dit laatste stelt de AI-technologie in staat hele zinnen, en zelfs alinea’s, als geheel te bekijken in plaats van louter als reeksen karakters. Hierdoor kan de software de verschillende contexten vastleggen waarin een woord kan voorkomen, en aangezien deze contexten worden geleverd door de werken die in de training worden gebruikt, inclusief auteursrechtelijk beschermde werken, zijn ze niet willekeurig. Op deze manier blijft het oorspronkelijke gebruik van de woorden, de uitdrukking van het originele werk, behouden in het AI-systeem. Het kan worden gereproduceerd en geanalyseerd, en kan de basis vormen voor nieuwe uitingen (die, afhankelijk van de specifieke omstandigheden, in auteursrechtterminologie kunnen worden gekarakteriseerd als ‘afgeleid werk’). 

LLM's behouden de uitdrukkingen van de originele werken waarin ze zijn opgeleid. Ze vormen interne representaties van de tekst in speciaal gebouwde vectorruimten en, gegeven de juiste input als trigger, konden ze de originele werken reproduceren die in hun training werden gebruikt. AI-systemen halen voortdurend voordeel uit de inhoud, inclusief auteursrechtelijk beschermde inhoud, die wordt gebruikt om de LLM's te trainen waarop ze zijn gebaseerd. LLM's herkennen de context van woorden op basis van de uitdrukking van woorden in het originele werk. En deze context komt cumulatief ten goede aan het AI-systeem voor duizenden of miljoenen auteursrechtelijk beschermde werken die in trainingen worden gebruikt. Deze originele werken kunnen door het AI-systeem opnieuw worden gemaakt omdat ze zijn opgeslagen in vectoren – vectorruimterepresentaties van tokens die hun oorspronkelijke natuurlijke taalrepresentatie behouden – van het auteursrechtelijk beschermde werk. Vanuit het perspectief van het auteursrecht is het bepalen of trainingsmateriaal in LLM's wordt bewaard de kern van de zaak, en het is duidelijk dat het antwoord op die vraag ja is.

spot_img

Laatste intelligentie

spot_img