Zephyrnet-logo

OpenAI: Het is onmogelijk om AI van het hoogste niveau te trainen en auteursrechten te omzeilen

Datum:

OpenAI heeft gezegd dat het “onmogelijk” zou zijn om neurale netwerken van het hoogste niveau te bouwen die aan de hedendaagse behoeften voldoen zonder gebruik te maken van auteursrechtelijk beschermd werk van mensen. Het door Microsoft gesteunde laboratorium, dat gelooft dat het deze inhoud op wettige wijze verzamelt voor het trainen van zijn modellen, zei dat het gebruik van materiaal uit het publieke domein waarop geen auteursrechten rusten, zou resulteren in ondermaatse AI-software.

Deze bewering komt op een moment dat de wereld van machinaal leren met zijn kop tegen de bakstenen muur van het auteursrecht aanloopt. Deze week nog concludeerde een IEEE-rapport dat Midjourney en OpenAI's DALL-E 3, twee van de belangrijkste AI-diensten om tekstprompts in afbeeldingen om te zetten, auteursrechtelijk beschermde scènes uit films en videogames kunnen recreëren op basis van hun trainingsgegevens.

De studies, co-auteur van Gary Marcus, een AI-expert en criticus, en Reid Southen, een digitale illustrator, documenteert meerdere voorbeelden van ‘plagiaristische outputs’ waarin OpenAI en DALL-E 3 substantieel vergelijkbare versies weergeven van scènes uit films, afbeeldingen van beroemde acteurs en videogame-inhoud.

Marcus en Southen zeggen dat het vrijwel zeker is dat Midjourney en OpenAI hun respectievelijke modellen voor het genereren van AI-beelden hebben getraind op auteursrechtelijk beschermd materiaal.

Of dat legaal is, en of AI-leveranciers of hun klanten het risico lopen aansprakelijk te worden gesteld, blijft een controversiële vraag. De bevindingen van het rapport kunnen echter een steun in de rug zijn voor degenen die Midjourney en DALL-E-maker OpenAI aanklagen wegens inbreuk op het auteursrecht.

Wanneer gebruikers een afbeelding maken, weten ze mogelijk niet of ze inbreuk maken

“Zowel OpenAI als Midjourney zijn volledig in staat om materiaal te produceren dat inbreuk lijkt te maken op auteursrechten en handelsmerken”, schreven ze. “Deze systemen informeren gebruikers niet wanneer ze dat doen. Ze geven geen informatie over de herkomst van de beelden die ze maken. Wanneer gebruikers een afbeelding maken, weten ze misschien niet of ze inbreuk maken.”

Geen van beide bedrijven heeft de trainingsgegevens die zijn gebruikt om hun AI-modellen te maken volledig openbaar gemaakt.

Het is niet juist digitale kunstenaars uitdagende AI-bedrijven. Recentelijk in de New York Times klaagde OpenAI aan omdat het ChatGPT-tekstmodel bijna woordelijke kopieën van de artikelen van de krant in de krant zal uitspugen. Auteurs van boeken hebben soortgelijke claims ingediend, evenals software-ontwikkelaars.

Voorafgaand onderzoek heeft aangegeven dat ChatGPT van OpenAI kan worden overgehaald om trainingstekst te reproduceren. En degenen die Microsoft en GitHub aanklagen, beweren dat het Copilot-codeerassistentmodel de code min of meer woordelijk zal reproduceren.

Southen merkte op dat Midjourney kosten in rekening brengt aan klanten die inbreukmakende inhoud creëren en profiteren van abonnementsinkomsten. “MJ [Midjourney]-gebruikers hoeven de afbeeldingen niet te verkopen omdat er mogelijk sprake is van inbreuk op het auteursrecht, MJ profiteert al van de creatie ervan”, zegt hij meende, in navolging van een argument uit het IEEE-rapport.

OpenAI rekent ook abonnementskosten en maakt dus op dezelfde manier winst. Noch OpenAI noch Midjourney reageerden niet op verzoeken om commentaar.

OpenAI publiceerde maandag echter een blogpost het aanpakken van de New York Times-rechtszaak, die volgens de AI-verkoper geen waarde had. Verbazingwekkend genoeg zei het laboratorium dat als zijn neurale netwerken inbreukmakende inhoud genereerden, dit een ‘bug’ was.

In totaal betoogde de parvenu vandaag het volgende: zij werkt actief samen met nieuwsorganisaties; training over auteursrechtelijk beschermde gegevens komt in aanmerking voor de verdediging tegen redelijk gebruik onder de auteursrechtwetgeving; “‘oprispingen’ is een zeldzame bug die we proberen tot nul terug te brengen”; en de New York Times heeft zorgvuldig uitgekozen voorbeelden van tekstreproductie die geen typisch gedrag vertegenwoordigen.

De wet zal beslissen

Tyler Ochoa, professor aan de juridische afdeling van de Santa Clara Universiteit in Californië, vertelde het Het register dat de bevindingen van het IEEE-rapport procederende partijen met auteursrechtclaims waarschijnlijk zullen helpen, maar dat dit niet het geval zou moeten zijn – omdat de auteurs van het artikel, naar zijn mening, een verkeerde voorstelling hebben gegeven van wat er gebeurt.

“Ze schrijven: ‘Kunnen beeldgenererende modellen ertoe worden aangezet plagiaat te produceren op basis van auteursrechtelijk beschermd materiaal? … [W]e ontdekte dat het antwoord duidelijk ja is, zelfs zonder direct om plagiaat te vragen.'”

Ochoa trok die conclusie in twijfel, met het argument dat de aanwijzingen die de auteurs van het rapport hadden ingevoerd ‘aantonen dat ze inderdaad rechtstreeks om plagiaat vragen. Elke prompt vermeldt de titel van een specifieke film, specificeert de beeldverhouding, en in alle gevallen, op één na, de woorden 'film' en 'screenshot' of 'screencap'. (De enige uitzondering beschrijft de afbeelding die ze wilden repliceren. )”

De rechtenprofessor zei dat de kwestie van de auteursrechtwetgeving bepaalt wie verantwoordelijk is voor deze plagiaatuitingen: de makers van het AI-model of de mensen die het AI-model hebben gevraagd een populaire scène te reproduceren.

“Het generatieve AI-model is in staat originele uitvoer te produceren, en is ook in staat scènes te reproduceren die lijken op scènes uit auteursrechtelijk beschermde invoer wanneer daarom wordt gevraagd”, legt Ochoa uit. “Dit moet worden geanalyseerd als een geval van bijdragende inbreuk: de persoon die het model heeft aangezet, is de voornaamste inbreukmaker, en de makers van het model zijn alleen aansprakelijk als zij op de hoogte zijn gesteld van de primaire inbreuk en zij geen redelijke stappen hebben ondernomen om dit te stoppen. Het."

Ochoa zei dat generatieve AI-modellen eerder specifieke afbeeldingen zullen reproduceren als er meerdere exemplaren van die afbeeldingen in hun trainingsdataset voorkomen.

“In dit geval is het hoogst onwaarschijnlijk dat de trainingsgegevens hele films omvatten; het is veel waarschijnlijker dat de trainingsgegevens stilstaande beelden uit de films bevatten die als publiciteitsstills voor de film werden verspreid”, zei hij. “Die afbeeldingen werden meerdere keren gereproduceerd in de trainingsgegevens omdat mediakanalen werden aangemoedigd om die afbeeldingen voor publicitaire doeleinden te verspreiden en dat ook deden.

“Het zou fundamenteel oneerlijk zijn als een auteursrechteigenaar de brede verspreiding van stilstaande beelden voor publicitaire doeleinden zou aanmoedigen en vervolgens zou klagen dat die beelden door een AI worden nagebootst omdat de trainingsgegevens meerdere kopieën van diezelfde beelden bevatten.”

Ochoa zei dat er stappen zijn om dergelijk gedrag van AI-modellen te beperken. “De vraag is of ze dat zouden moeten doen, terwijl de persoon die de prompt invoerde duidelijk wilde dat de AI een herkenbaar beeld zou reproduceren, en de filmstudio’s die de originele stilstaande beelden produceerden duidelijk wilden dat die stilstaande beelden op grote schaal verspreid zouden worden. ," hij zei.

“Een betere vraag zou zijn: hoe vaak gebeurt dit als de prompt geen specifieke film vermeldt of een specifiek personage of scène beschrijft? Ik denk dat een onbevooroordeelde onderzoeker waarschijnlijk tot de conclusie zou komen dat het antwoord zelden (misschien bijna nooit) is.”

Niettemin lijkt auteursrechtelijk beschermde inhoud een essentiële brandstof voor het goed functioneren van deze modellen.

OpenAI verdedigt zichzelf tegenover Lords

Als reactie op een onderzoek naar de risico’s en kansen van AI-modellen door het Britse House of Lords Communications and Digital Committee, presenteerde OpenAI een voorlegging [PDF] waarschuwt dat de modellen niet zullen werken zonder training in auteursrechtelijk beschermde inhoud.

“Omdat het auteursrecht tegenwoordig vrijwel elke vorm van menselijke expressie omvat – inclusief blogposts, foto’s, forumposts, stukjes softwarecode en overheidsdocumenten – zou het onmogelijk zijn om de toonaangevende AI-modellen van vandaag te trainen zonder auteursrechtelijk beschermd materiaal te gebruiken”, aldus het superlab. .

“Het beperken van trainingsgegevens tot boeken en tekeningen uit het publieke domein die meer dan een eeuw geleden zijn gemaakt, zou een interessant experiment kunnen opleveren, maar zou geen AI-systemen opleveren die voldoen aan de behoeften van de hedendaagse burgers.”

De AI-branche zei dat het gelooft dat het voldoet aan de auteursrechtwetgeving en dat training over auteursrechtelijk beschermd materiaal legaal is, hoewel het toestaat dat “er nog werk moet worden gedaan om makers te ondersteunen en te empoweren.”

Dat sentiment, dat klinkt als een diplomatieke erkenning van ethische zorgen over compensatie voor het aantoonbare eerlijke gebruik van auteursrechtelijk beschermd werk, moet worden gezien in samenhang met de bewering van het IEEE-rapport dat “we bewijs hebben ontdekt dat een senior software-ingenieur bij Midjourney heeft deelgenomen aan een gesprek in februari 2022 over hoe je de auteursrechtwetgeving kunt omzeilen door gegevens te ‘witwassen’ ‘via een verfijnde codex.'”

Marcus, co-auteur van het IEEE-rapport, uitte zijn scepsis over de inspanningen van OpenAI om in Groot-Brittannië groen licht te krijgen voor zijn huidige zakelijke praktijken.

“Ruwe vertaling: we zullen niet fabelachtig rijk worden als je ons niet laat stelen, dus maak van stelen alsjeblieft geen misdaad!” schreef hij op sociale media post. ‘Laat ons niet betalen licentie kosten ook! Natuurlijk betaalt Netflix misschien miljarden per jaar aan licentiekosten, maar we zou niet moeten! Meer geld voor ons, Moar!”

OpenAI heeft aangeboden zakelijke ChatGPT- en API-klanten schadeloos te stellen tegen auteursrechtclaims, maar niet als de klant of de eindgebruikers van de klant “wisten of hadden moeten weten dat de Output inbreuk maakte of waarschijnlijk inbreuk zou maken” of als de klant veiligheidsvoorzieningen omzeilde, naast andere beperkingen. Het vragen aan DALL-E 3 om een ​​beroemde filmscène na te bootsen – waarvan gebruikers zouden moeten weten dat deze waarschijnlijk onder het auteursrecht valt – zou dus niet in aanmerking komen voor schadevergoeding.

Midjourney heeft de tegenovergestelde aanpak gevolgd en beloofd klanten die betrokken zijn bij inbreuken op te sporen en aan te klagen om de juridische kosten die voortvloeien uit gerelateerde claims te verhalen.

“Als je willens en wetens inbreuk maakt op het intellectuele eigendom van iemand anders, en dat kost ons geld, dan komen we je opzoeken en innen dat geld bij je”, zegt Midjourney. Algemene Voorwaarden staat. ‘We kunnen ook andere dingen doen, zoals proberen een rechtbank zover te krijgen dat u onze juridische kosten betaalt. Doe het niet.” ®

spot_img

VC Café

VC Café

Laatste intelligentie

spot_img