Zephyrnet-logo

Open source-licenties moeten evolueren om met AI om te gaan

Datum:

Advies Vrije software en open source-licenties zijn in de jaren 1970 en 80 ontwikkeld om met code om te gaan. Vandaag moet het opnieuw transformeren om met AI-modellen om te gaan.

AI is geboren uit open source software. Maar de vrije software en open source-licenties, gebaseerd op de auteursrechtwetgeving, om met softwarecode om te gaan, passen niet goed bij de neurale netwerken en datasets van het grote taalmodel (LLM) die de open source-software van AI voeden. Aangezien met name veel programmeerdatasets gebaseerd zijn op vrije software en open source-code, moet er iets gebeuren. En daarom Stefano Maffulli, Open Source-initiatief (OSI) uitvoerend directeur en tal van andere open source- en AI-leiders werken aan het combineren van AI- en open source-licenties op een manier die voor beide zinvol is.

Tenzij je denkt dat dit een soort theoretische, juridische discussie is zonder impact op de echte wereld, denk nog eens goed na. Overwegen J. Doe 1 e.a. versus GitHub. De eisers in deze zaak in de Northern District Court van Californië in de Verenigde Staten beweren dat Microsoft, OpenAI en GitHub via hun commerciële AI-gebaseerde systeem, OpenAI's Codex en GitHub's Copilot, hun open source-code hebben opgelicht. Het resultaat? De eisers beweren dat "voorgestelde" code bestaat uit vaak vrijwel identieke kopieën van code die uit openbare GitHub-repository's is geschraapt, zonder de vereiste open source-licentietoeschrijvingen.

Deze zaak gaat door. De gewijzigde klacht omvat beschuldigingen van het overtreden van de Digital Millennium Copyright Act, contractbreuk (open source-licentieschendingen), oneerlijke verrijking en oneerlijke concurrentieclaims, en contractbreuk (verkoop van gelicentieerd materiaal in strijd met het beleid van GitHub).

Denk niet dat dit soort rechtszaken alleen het probleem van Microsoft is. Het is niet. Sean O'Brien, docent cyberbeveiliging aan de Yale Law School en oprichter van de Yale Privacylab, vertelde mijn collega David Gewirtz: “Ik geloof dat er binnenkort een hele subindustrie van trollen die octrooitrollen weerspiegelt, maar deze keer rond AI-gegenereerde werken. Er ontstaat een feedbacklus naarmate meer auteurs AI-aangedreven tools gebruiken om code onder eigen licenties te verzenden. Software-ecosystemen zullen worden vervuild met eigen code die het onderwerp zal zijn van onophoudelijke claims door ondernemende bedrijven.”

Hij heeft gelijk. Ik dek al tientallen jaren octrooitrollen af. Ik garandeer dat licentietrollen na "uw" ChatGPT- en Copilot-code komen. 

Sommige mensen, zoals Felix Reda, een Duitse onderzoeker en politicus, beweren dat alles Door AI geproduceerde code is publiek domein. Amerikaanse advocaat Richard Santalesa, een van de oprichters van de SmartEdgeLaw-groep, merkte tegen Gewirtz op dat er kwesties zijn op het gebied van contracten en auteursrecht. Ze zijn niet hetzelfde. Santalesa gelooft dat bedrijven die AI-gegenereerde code produceren, "zoals met al hun andere IP, hun geleverde materialen - inclusief AI-gegenereerde code - als hun eigendom zullen beschouwen." In ieder geval echter code van het publieke domein is niet hetzelfde als open source-code.

Bovendien is er de hele kwestie hoe de datasets gelicentieerd moeten worden. Er zijn veel "open" datasets onder tal van open source-licenties, maar het past meestal niet goed.

In ons gesprek ging Maffulli van Open Source Initiative in op hoe verschillende artefacten geproduceerd door AI en machine learning-systemen onder verschillende wet- en regelgeving vallen. De open source-gemeenschap moet bepalen welke wetten hun belangen het beste dienen. Maffulli vergeleek de huidige situatie met eind jaren '70 en '80, toen software opkwam als een aparte discipline en copyright begon te worden toegepast op de broncode en binaire codes.

We staan ​​vandaag op een vergelijkbaar kruispunt. AI-programma's zoals TensorFlow, PyTorch en Hugging Face Hub werken goed onder hun open source-licenties. De nieuwe AI-artefacten zijn een ander verhaal. Datasets, modellen, gewichten etc. passen niet helemaal in het traditionele copyrightmodel. Maffulli voerde aan dat de technische gemeenschap iets nieuws zou moeten bedenken dat beter aansluit bij onze doelstellingen, in plaats van te vertrouwen op 'hacks'.

Met name open source-licenties die zijn ontworpen voor software, merkte Maffulli op, zijn misschien niet de beste keuze voor AI-artefacten. Hoewel bijvoorbeeld de brede vrijheden van MIT License mogelijk van toepassing kunnen zijn op een model, rijzen er vragen over complexere licenties zoals Apache of de GPL. Maffulli ging ook in op de uitdagingen van het toepassen van open source-principes op gevoelige gebieden zoals de gezondheidszorg, waar regelgeving rond gegevenstoegang unieke hindernissen vormt. De korte versie hiervan is dat medische gegevens niet open source kunnen zijn.

Tegelijkertijd zijn de meeste commerciële LLM-datasets zwarte dozen. We weten letterlijk niet wat erin zit. Dus we eindigen, zoals de Electronic Frontier Foundation (EFF) het stelt, in een situatie waarin we hebben "Vuilnis erin, evangelie eruit." We hebben open data nodig, concludeert het EVF.

Dus het is dat de OSI, zei Maffulli, samen met Open Forum Europe, Creative Commons, Wikimedia Foundation, Hugging Face, GitHub, de Linux Foundation, ACLU Mozilla en het Internet Archive werken aan een ontwerp voor het definiëren van een gemeenschappelijk begrip van open source AI-principes. Dit zal "cruciaal zijn in gesprekken met wetgevende instanties". Zelfs nu worstelen overheidsinstanties in de EU, de VS en het VK om AI-regelgeving te ontwikkelen, en ze zijn jammerlijk onvoldoende toegerust om de problemen aan te pakken.

Stefano sloot af door te zeggen dat we moeten beginnen met "een terugkeer naar de basis", de GNU-manifest, dat ouder is dan de meeste licenties en de "North Star" voor de open source-beweging vormt. Maffulli suggereerde dat de principes ervan verrassend relevant blijven wanneer ze worden toegepast op AI-systemen. Door ons te concentreren op de eerste principes, kunnen we beter navigeren op dit complexe kruispunt van AI en open source. ®

spot_img

Laatste intelligentie

spot_img