Zephyrnet-logo

Waarom de AI-auteursrechtzaak van de New York Times lastig te verdedigen is

Datum:

De New York Times (NYT) legale processen tegen OpenAI en Microsoft heeft een nieuwe grens geopend in de aanhoudende juridische uitdagingen die worden veroorzaakt door het gebruik van auteursrechtelijk beschermde gegevens om generatieve AI te ‘trainen’ of te verbeteren.

Er lopen al verschillende rechtszaken tegen AI-bedrijven, waaronder één die is aangespannen Getty Images tegen stabiliteits-AI, waarmee de Stable Diffusion online tekst-naar-afbeelding-generator wordt gemaakt. Auteurs George RR Martin en John Grisham hebben ook rechtszaken aangespannen tegen ChatGPT-eigenaar OpenAI vanwege auteursrechtclaims. Maar de NYT-zaak is niet ‘meer van hetzelfde’, omdat er interessante nieuwe argumenten in de mix worden gegooid.

De juridische actie richt zich op de waarde van de trainingsgegevens en een nieuwe vraag met betrekking tot reputatieschade. Het is een krachtige mix van handelsmerken en auteursrechten, die de verdediging tegen redelijk gebruik waarop doorgaans wordt vertrouwd, op de proef kan stellen.

Het zal ongetwijfeld nauwlettend in de gaten worden gehouden door mediaorganisaties die de gebruikelijke ‘laten we om vergeving vragen, niet om toestemming’-benadering van trainingsgegevens ter discussie stellen. Trainingsgegevens worden gebruikt om de prestaties van AI-systemen te verbeteren en bestaan ​​doorgaans uit informatie uit de echte wereld, vaak afkomstig van internet.

De rechtszaak presenteert ook een nieuw argument – ​​dat niet door andere, soortgelijke zaken naar voren is gebracht – dat verband houdt met iets dat ' "hallucinaties", waarbij AI-systemen valse of misleidende informatie genereren, maar deze als feit presenteren. Dit argument zou in feite een van de krachtigste in deze zaak kunnen zijn.

Vooral de NYT-zaak levert drie interessante invalshoeken op de gebruikelijke aanpak op. Ten eerste heeft NYT-inhoud, vanwege hun reputatie op het gebied van betrouwbaar nieuws en informatie, een grotere waarde en wenselijkheid als trainingsgegevens voor gebruik in AI.

Ten tweede is de reproductie van artikelen op verzoek vanwege de betaalmuur van de NYT commercieel schadelijk. Ten derde, dat ChatGPT Hallucinaties veroorzaken reputatieschade aan de New York Times door, in feite, valse attributie.

Dit is niet zomaar een geschil over generatief AI-auteursrecht. Het eerste argument van de NYT is dat de door OpenAI gebruikte trainingsgegevens auteursrechtelijk beschermd zijn, en daarom beweren zij dat de trainingsfase van ChatGPT inbreuk maakte op het auteursrecht. Dit soort argumenten hebben we gezien eerder rennen bij andere geschillen.

Eerlijk gebruik?

De uitdaging voor dit type aanval is de Fair Use-schild. In de VS is redelijk gebruik een wettelijke doctrine die het gebruik van auteursrechtelijk beschermd materiaal onder bepaalde omstandigheden toestaat, zoals in nieuwsverslaggeving, academisch werk en commentaar.

Het antwoord van OpenAI tot nu toe is men zeer voorzichtig geweest, maar een belangrijk uitgangspunt in een verklaring van het bedrijf is dat hun gebruik van onlinegegevens inderdaad onder het principe van ‘fair use’ valt.

Anticiperend op enkele van de moeilijkheden die een dergelijke verdediging tegen eerlijk gebruik mogelijk zou kunnen veroorzaken, heeft de NYT een iets andere invalshoek gekozen. In het bijzonder probeert het zijn gegevens te onderscheiden van standaardgegevens. De NYT is van plan gebruik te maken van wat zij beweert de nauwkeurigheid, betrouwbaarheid en prestige van haar berichtgeving te zijn. Het beweert dat hierdoor een bijzonder wenselijke dataset ontstaat.

Het stelt dat zijn artikelen, als gerenommeerde en vertrouwde bron, extra gewicht en betrouwbaarheid hebben bij het trainen van generatieve AI en deel uitmaken van een datasubset die in die training extra gewicht krijgt.

Het stelt dat ChatGPT, door artikelen op verzoek grotendeels te reproduceren, de NYT kan ontkennen, die een betaalmuur heeft, bezoekers en inkomsten die het anders zou ontvangen. Deze introductie van een bepaald aspect van commerciële concurrentie en commercieel voordeel lijkt bedoeld om de gebruikelijke fair-use-verdediging die deze claims gemeen hebben, te omzeilen.

Het zal interessant zijn om te zien of de bewering van een speciale weging in de trainingsgegevens impact heeft. Als dat wel het geval is, wordt de weg vrijgemaakt voor andere mediaorganisaties om het gebruik van hun berichtgeving in de trainingsgegevens zonder toestemming aan te vechten.

Het laatste element van de claim van de NYT biedt een nieuwe invalshoek voor de uitdaging. Het suggereert dat er schade wordt toegebracht aan het merk NYT door het materiaal dat ChatGPT produceert. Hoewel het bijna als een bijzaak in de klacht wordt gepresenteerd, kan het toch de claim zijn die OpenAI de meeste problemen bezorgt.

Dit is het argument dat verband houdt met AI-hallucinaties. De NYT stelt dat dit wordt verergerd omdat ChatGPT de informatie presenteert alsof deze afkomstig is van de NYT.

De krant suggereert verder dat consumenten kunnen handelen op basis van de samenvatting van ChatGPT, in de veronderstelling dat de informatie afkomstig is van de NYT en te vertrouwen is. De reputatieschade wordt veroorzaakt doordat de krant geen controle heeft over wat ChatGPT produceert.

Dit is een interessante uitdaging om mee af te sluiten. Hallucinatie is een erkend probleem bij door AI gegenereerde reacties, en de NYT stelt dat de reputatieschade wellicht niet eenvoudig te herstellen is.

De NYT-claim opent een aantal nieuwe aanvalslijnen die de focus verleggen van het auteursrecht naar de manier waarop de auteursrechtelijk beschermde gegevens door ChatGPT aan gebruikers worden gepresenteerd en de waarde van die gegevens voor de krant. Dit is veel lastiger voor OpenAI om te verdedigen.

Deze zaak zal nauwlettend in de gaten worden gehouden door andere media-uitgevers, vooral die achter betaalmuren, en met bijzondere aandacht voor de manier waarop deze samenwerkt met de gebruikelijke verdediging tegen redelijk gebruik.

Als wordt erkend dat de NYT-dataset de ‘verbeterde waarde’ heeft die zij beweert te hebben, kan dit de weg vrijmaken voor het genereren van inkomsten uit die dataset bij het trainen van AI in plaats van de ‘vergevingsgezindheid, geen toestemming’-benadering die vandaag de dag gangbaar is.

Dit artikel is opnieuw gepubliceerd vanaf The Conversation onder een Creative Commons-licentie. Lees de originele artikel.

Krediet van het beeld: AbsoluutVisie / Unsplash 

spot_img

Laatste intelligentie

spot_img