Logo Zéphyrnet

Les licences open source doivent évoluer pour faire face à l'IA

Date :

Opinion Les logiciels libres et les licences open source ont évolué pour gérer le code dans les années 1970 et 80. Aujourd'hui, il doit à nouveau se transformer pour faire face aux modèles d'IA.

L'IA est née d'un logiciel open source. Mais les logiciels libres et les licences open source, basées sur la loi sur le droit d'auteur, pour gérer le code logiciel ne conviennent pas aux réseaux neuronaux et aux ensembles de données du grand modèle de langage (LLM) qui alimentent les logiciels open source d'IA. Étant donné que de nombreux ensembles de données de programmation, en particulier, sont basés sur des logiciels libres et du code open source, il faut faire quelque chose. Et c'est pourquoi Stefano Maffulli, Initiative Open Source (OSI) directeur exécutif, et une foule d'autres leaders de l'open source et de l'IA travaillent à combiner l'IA et les licences open source d'une manière qui aura du sens pour les deux.

De peur que vous pensiez qu'il s'agit d'une sorte de discussion théorique et juridique sans impact sur le monde réel, détrompez-vous. Considérer J. Doe 1 et al contre GitHub. Les plaignants dans cette affaire devant le tribunal du district nord de Californie aux États-Unis allèguent que Microsoft, OpenAI et GitHub, via leur système commercial basé sur l'IA, OpenAI's Codex et GitHub's Copilot, avaient arraché leur code open source. Le résultat? Les plaignants affirment que le code "suggéré" consiste en des copies souvent presque identiques de code extraites des référentiels publics GitHub, sans les attributions de licence open source requises.

Ce l'affaire continueL’ plainte modifiée comprend des accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale, et de rupture de contrat (vente de matériel sous licence en violation des politiques de GitHub).

Ne pensez pas que ce genre de procès n'est que le problème de Microsoft. Ce n'est pas. Sean O'Brien, professeur de cybersécurité à la Yale Law School et fondateur du Laboratoire de confidentialité de Yale, a déclaré à mon collègue David Gewirtz : « Je crois qu'il y aura bientôt une toute la sous-industrie de la pêche à la traîne qui reflète les trolls brevetés, mais cette fois autour des œuvres générées par l'IA. Une boucle de rétroaction est créée à mesure que de plus en plus d'auteurs utilisent des outils alimentés par l'IA pour expédier du code sous des licences propriétaires. Les écosystèmes logiciels seront pollués par du code propriétaire qui fera l'objet de demandes de cessation et d'abstention de la part d'entreprises entreprenantes.

Il a raison. Je couvre les trolls de brevets depuis des décennies. Je garantis que les trolls de licence viendront après "votre" code ChatGPT et Copilot. 

Certaines personnes, comme Felix Reda, chercheur et homme politique allemand, affirment que tout Le code produit par l'IA est du domaine public. avocat américain Richard Santalesa, membre fondateur du Groupe SmartEdgeLaw, a fait remarquer à Gewirtz qu'il existe des problèmes de droit des contrats et du droit d'auteur. Ce n'est pas la même chose. Santalesa pense que les entreprises produisant du code généré par l'IA "comme pour toutes leurs autres propriétés intellectuelles, considéreront leurs matériaux fournis - y compris le code généré par l'IA - comme leur propriété". En tout cas, cependant, le code du domaine public n'est pas la même chose que le code open source.

En plus de tout cela, il y a toute la question de savoir comment les ensembles de données devraient être autorisés. Il y a de nombreux ensembles de données "ouverts" sous de nombreuses licences open source, mais ce n'est généralement pas un bon choix.

Au cours de notre conversation, Maffulli de l'Open Source Initiative a expliqué comment divers artefacts produits par l'IA et les systèmes d'apprentissage automatique relèvent de différentes lois et réglementations. La communauté open source doit déterminer quelles lois servent le mieux ses intérêts. Maffulli a comparé la situation actuelle à la fin des années 70 et 80 lorsque le logiciel est apparu comme une discipline distincte et que le droit d'auteur a commencé à être appliqué aux codes source et binaire.

Nous sommes à un carrefour similaire aujourd'hui. Les programmes d'IA tels que TensorFlow, PyTorch et Hugging Face Hub fonctionnent bien sous leurs licences open source. Les nouveaux artefacts d'IA sont une autre histoire. Les ensembles de données, les modèles, les pondérations, etc. ne correspondent pas parfaitement au modèle traditionnel du droit d'auteur. Maffulli a fait valoir que la communauté technologique devrait concevoir quelque chose de nouveau qui corresponde mieux à nos objectifs, plutôt que de s'appuyer sur des « hacks ».

Plus précisément, les licences open source conçues pour les logiciels, a noté Maffulli, pourraient ne pas être la meilleure solution pour les artefacts d'IA. Par exemple, alors que les larges libertés de la licence MIT pourraient potentiellement s'appliquer à un modèle, des questions se posent pour des licences plus complexes comme Apache ou la GPL. Maffulli a également abordé les défis de l'application des principes open source à des domaines sensibles comme la santé, où les réglementations relatives à l'accès aux données posent des obstacles uniques. La version courte de ceci est que les données médicales ne peuvent pas être open source.

Simultanément, la plupart des ensembles de données LLM commerciaux sont des boîtes noires. Nous ne savons littéralement pas ce qu'il y a dedans. Nous nous retrouvons donc, comme le dit l'Electronic Frontier Foundation (EFF), dans une situation où nous avons "Garbage In, Gospel Out." Nous avons besoin, conclut l'EFF, de données ouvertes.

C'est ainsi que l'OSI, a déclaré Maffulli, en collaboration avec Open Forum Europe, Creative Commons, Wikimedia Foundation, Hugging Face, GitHub, la Linux Foundation, ACLU Mozilla et Internet Archive travaillent sur un projet pour définir une compréhension commune de l'open source. principes de l'IA source. Ce sera "essentiel dans les conversations avec les organes législatifs". Même maintenant, les agences gouvernementales de l'UE, des États-Unis et du Royaume-Uni ont du mal à développer une réglementation sur l'IA, et elles sont terriblement sous-équipées pour faire face aux problèmes.

Stefano a conclu en disant que nous devrions commencer par "un retour à l'essentiel", le Manifeste GNU, qui est antérieur à la plupart des licences et définit «l'étoile du Nord» pour le mouvement open source. Maffulli a suggéré que ses principes restent étonnamment pertinents lorsqu'ils sont appliqués aux systèmes d'IA. En nous concentrant sur les premiers principes, nous serons mieux à même de naviguer dans cette intersection complexe de l'IA et de l'open source. ®

spot_img

Dernières informations

spot_img