Comment GitHub Copilot pourrait orienter Microsoft dans une tempête de droits d'auteur

Rapport spécial GitHub Copilot – un outil d'auto-suggestion de programmation formé à partir de code source public sur Internet – a été surpris en train de générer ce qui semble être du code protégé par le droit d'auteur, incitant un avocat à examiner une éventuelle plainte pour violation du droit d'auteur.

Lundi, Matthew Butterick, avocat, designer et développeur, annoncé il travaille avec le cabinet d'avocats Joseph Saveri pour enquêter sur la possibilité de déposer une réclamation de droit d'auteur contre GitHub. Il existe ici deux lignes d'attaque potentielles : GitHub forme-t-il incorrectement Copilot sur du code open source, et l'outil émet-il de manière inappropriée le travail protégé par le droit d'auteur d'autres personnes - extrait des données de formation - pour suggérer des extraits de code aux utilisateurs ?

Butterick a critiqué Copilote depuis son lancement. En juin, il publie un blog arguant que "tout code généré par Copilot peut contenir des violations de licence ou de propriété intellectuelle", et doit donc être évité.

Le même mois, Denver Gingerich et Bradley Kuhn du Software Freedom Conservancy (SFC) ont déclaré que leur organisation arrêterait d'utiliser GitHub, en grande partie parce que Microsoft et GitHub ont publié Copilot sans répondre aux préoccupations concernant la manière dont le modèle d'apprentissage automatique traitait les différentes exigences de licence open source.

De nombreux développeurs se sont inquiétés de ce que Copilot signifie pour l'open source

La capacité de Copilot à copier le code textuellement, ou presque, est apparue la semaine dernière lorsque Tim Davis, professeur d'informatique et d'ingénierie à la Texas A&M University, trouvé que Copilot, lorsqu'il y était invité, reproduisait son code de transposition de matrice clairsemée protégé par le droit d'auteur.

Invité à commenter, Davis a déclaré qu'il préférerait attendre d'avoir des nouvelles de GitHub et de son parent Microsoft au sujet de ses préoccupations.

Dans un e-mail à Le registre, Butterick a indiqué qu'il y avait eu une forte réaction aux nouvelles de son enquête.

"Il est clair que de nombreux développeurs se sont inquiétés de ce que Copilot signifie pour l'open source", a-t-il écrit. « Nous entendons beaucoup d'histoires. Notre expérience avec Copilot a été similaire à ce que d'autres ont trouvé - qu'il n'est pas difficile d'inciter Copilot à émettre du code verbatim à partir de référentiels open source identifiables. Au fur et à mesure que nous élargissons notre enquête, nous nous attendons à voir plus d'exemples.

"Mais gardez à l'esprit que la copie textuelle n'est qu'un des nombreux problèmes présentés par Copilot. Par exemple, le droit d'auteur d'un auteur de logiciel sur son code peut être violé sans copie textuelle. De plus, la plupart des codes open source sont couverts par une licence, ce qui impose des exigences légales supplémentaires. Copilot a-t-il satisfait à ces exigences ? Nous examinons tous ces problèmes.

Les porte-parole de Microsoft et de GitHub n'ont pas pu commenter cet article. Cependant, la documentation de GitHub pour Copilot met en garde contre que la sortie peut contenir des "modèles indésirables" et met la responsabilité de la violation de la propriété intellectuelle sur l'utilisateur de Copilot. C'est-à-dire que si vous utilisez Copilot pour compléter automatiquement le code pour vous et que vous êtes poursuivi, vous avez été averti. Cet avertissement implique que la possibilité pour Copilot de produire du code protégé par le droit d'auteur n'était pas imprévue.

'Impatient'

Lorsque GitHub a introduit une version bêta de Copilot en 2021 et que des questions sur les droits d'auteur et les licences ont été soulevées, le PDG de l'époque, Nat Friedman opiné "La formation des systèmes ML sur les données publiques est une utilisation équitable [et] la sortie appartient à l'opérateur, tout comme avec un compilateur. Nous pensons que la propriété intellectuelle et l'IA feront l'objet d'un débat politique intéressant dans le monde entier dans les années à venir, et nous sommes impatients d'y participer !"

Cette participation, incidemment, a inclus des tables rondes financées par GitHub sur l'impact de l'IA sur l'open source, à un évènement géré par l'Open Source Initiative, qui est en partie financé par Microsoft.

Kuhn du SFC a dit Le registre dans un e-mail que les déclarations de l'ancien PDG de GitHub selon lesquelles ces problèmes de droit d'auteur sont réglés créent un faux récit - un point qu'il a fait valoir précédemment.

"Nous avons parlé à plusieurs reprises avec Microsoft et GitHub de ce problème et leur position anti-FOSS [logiciels libres et open source] non pris en charge est restée d'une cohérence inquiétante", a-t-il écrit. "Nous pensons que Microsoft et GitHub ont fait le calcul politique selon lequel s'ils répètent sans cesse que ce qu'ils font est acceptable, tôt et souvent, ils peuvent rendre vrai ce qui n'est pas connu pour être vrai."

Pourtant, parmi ceux qui trouvent des outils comme Copilot utiles, il y a de l'espoir que l'IA d'assistance puisse être réconciliée avec nos cadres sociaux et juridiques. Que la sortie d'un modèle ne mènera pas à des litiges.

Brett Becker, professeur adjoint à l'University College Dublin en Irlande, a déclaré Le registre dans un e-mail, "Les outils de programmation assistée par l'IA ne vont pas disparaître et continueront d'évoluer. La place de ces outils dans le paysage actuel des pratiques de programmation, de la loi et des normes communautaires ne fait que commencer à être explorée et continuera également d'évoluer.

« Une question intéressante est : quels seront les principaux moteurs de cette évolution ? Ces outils modifieront-ils fondamentalement les futures pratiques, la loi et les normes communautaires - ou nos pratiques, la loi et les normes communautaires se révéleront-elles résilientes et conduiront-elles l'évolution de ces outils ? »

Les implications juridiques des grands modèles de langage, tels que le Codex d'OpenAI, sur lequel Copilot est basé, et les modèles texte-image construits à partir d'ensembles de données compilés par l'association allemande à but non lucratif LAION, tels que Imagen et Stable Diffusion, restent des sujets de discussion passionnés. Des préoccupations similaires concernant la images générées par Midjourney ont été soulevées.

Lorsqu'on lui a demandé s'il pensait que les grands modèles de langage (LLM) axés sur la génération de code source étaient plus sujets aux violations du droit d'auteur en raison de la nature contrainte de leur sortie, Butterick a déclaré qu'il hésitait à généraliser.

« Nous avons également examiné les générateurs d'images – les utilisateurs ont déjà constaté que DALL-E et Midjourney et Stable Diffusion ont des forces et des faiblesses différentes. Il en sera probablement de même pour les LLM pour le codage », a-t-il déclaré.

"Ces questions sur Copilot ont été soulevées depuis sa première version bêta. Il y a probablement des questions juridiques qui finiront par être communes à tous ces systèmes, notamment autour du traitement des données de formation. Encore une fois, nous ne sommes pas les premiers à les soulever. Une grande différence entre le code open source et les images est que les images sont généralement proposées sous des licences plus restrictives que les licences open source.

Il existe également des problèmes sociaux et éthiques adjacents qui restent non résolus, par exemple si le code généré par l'IA doit être considéré comme du plagiat et dans quelle mesure les créateurs des matériaux utilisés pour former un réseau de neurones doivent avoir leur mot à dire sur l'utilisation de ce modèle d'IA.

Dans la Texas Law Review de mars 2021, Mark Lemley, professeur de droit à Stanford, et Bryan Casey, alors maître de conférences en droit à Stanford, ont posé une question : « La loi sur le droit d'auteur permettra-t-elle aux robots d'apprendre ? Ils argumenter que, du moins aux États-Unis, il le devrait.

"Les systèmes [d'apprentissage automatique] devraient généralement pouvoir utiliser des bases de données pour la formation, que le contenu de cette base de données soit ou non protégé par le droit d'auteur", ont-ils écrit, ajoutant que la loi sur le droit d'auteur n'est pas le bon outil pour réglementer les abus.

Mais lorsqu'il s'agit de la sortie de ces modèles - les suggestions de code faites automatiquement par des gens comme Copilot - le potentiel de revendication de droit d'auteur proposé par Butterick semble plus fort.

"Je pense en fait qu'il y a de bonnes chances qu'il y ait une bonne revendication de droit d'auteur", a déclaré Tyler Ochoa, professeur au département de droit de l'Université de Santa Clara en Californie, lors d'un entretien téléphonique avec Le registre.

Je pense en fait qu'il y a de bonnes chances qu'il y ait une bonne revendication de droit d'auteur

En ce qui concerne l'ingestion de code accessible au public, a déclaré Ochoa, il peut y avoir des violations de licence logicielle, mais cela est probablement protégé par une utilisation équitable. Bien qu'il n'y ait pas eu beaucoup de litiges à ce sujet, un certain nombre d'universitaires ont adopté cette position et il a dit qu'il était enclin à être d'accord.

Kuhn est moins disposé à mettre de côté la façon dont Copilot traite les licences logicielles.

"Ce que GitHub de Microsoft a fait dans ce processus est absolument inadmissible", a-t-il déclaré. "Sans discussion, consentement ou engagement avec la communauté FOSS, ils ont déclaré qu'ils savaient mieux que les tribunaux et nos lois ce qui est ou n'est pas autorisé en vertu d'une licence FOSS. Ils ont complètement ignoré les clauses d'attribution de toutes les licences FOSS et, plus important encore, les exigences plus protégeant la liberté des licences copyleft.

Mais en ce qui concerne les endroits où Copilot peut être vulnérable à une réclamation pour droit d'auteur, Ochoa pense que les LLM qui produisent du code source - plus que les modèles qui génèrent des images - sont susceptibles de faire écho aux données de formation. Cela peut être problématique pour GitHub.

"Lorsque vous essayez de produire du code, du code source, je pense que vous avez une très forte probabilité que le code que vous produisez ressemble à une ou plusieurs des entrées, car tout l'intérêt du code est de réaliser quelque chose de fonctionnel ," il a dit. "Une fois que quelque chose fonctionne bien, beaucoup d'autres personnes vont le répéter."

Ochoa soutient que la sortie est susceptible d'être la même que les données de formation pour l'une des deux raisons suivantes : « La première est qu'il n'y a qu'une seule bonne façon de le faire. Et l'autre est que [vous] copiez essentiellement une solution open source.

"S'il n'y a qu'une seule bonne façon de le faire, OK, alors ce n'est probablement pas éligible au droit d'auteur. Mais il y a de fortes chances qu'il y ait juste beaucoup de code dans [les données de formation] qui a utilisé la même solution open source, et que la sortie va ressembler beaucoup à cela. Et ce n'est que de la copie.

En d'autres termes, le modèle peut suggérer du code pour résoudre un problème pour lequel il n'y a qu'une seule solution pratique, ou il copie à partir de l'open source de quelqu'un qui fait la même chose. Dans les deux cas, c'est probablement parce que beaucoup de gens ont utilisé le même code, et cela apparaît beaucoup dans les données de formation, ce qui conduit l'assistant à le régurgiter.

Serait-ce un usage loyal ? Ce n'est pas clair. Ochoa dit que la nature fonctionnelle du code signifie que le reproduire dans une suggestion peut ne pas être considéré comme particulièrement transformateur, ce qui est l'un des critères pour déterminer l'usage loyal. Et puis il y a la question de savoir si la copie nuit au marché lorsque le marché ne facture pas le code open source. Si cela nuit au marché, l'utilisation équitable peut ne pas s'appliquer.

"Le problème ici est que le marché ne vous facture pas d'argent pour ces utilisations", a déclaré Ochoa, ajoutant cependant que les termes des licences open source sont ce qui intéresse le plus le marché. "Si un tribunal pense que ces conditions sont importantes, puis ils diront : 'oui, vous nuisez au marché de ces œuvres, parce que vous ne respectez pas les conditions.' [Les créateurs de logiciels] n'obtiennent pas la considération qu'ils souhaitaient lorsqu'ils ont créé ces mots en premier lieu.

« Donc, ils ne demandent pas de compensation monétaire. Ils demandent une compensation non monétaire. Et ils ne comprennent pas. Et s'ils ne l'obtiennent pas, ils seront moins susceptibles de contribuer au code open source à l'avenir. En théorie, cela nuit au marché de ces œuvres ou nuit à l'incitation à les produire.

Le code généré peut donc ne pas être suffisamment transformateur pour être un usage équitable et peut nuire au marché tel que décrit - encore une fois, potentiellement faire dérailler une revendication d'utilisation équitable.

Lorsque Berkeley Artificial Intelligence Research a examiné cette question en 2020, le groupe suggéré que la formation de grands modèles de langage à partir de données Web publiques est peut-être fondamentalement défectueuse, compte tenu des préoccupations concernant la confidentialité, les préjugés et la loi. Ils ont proposé que les entreprises technologiques investissent dans la collecte de meilleures données de formation plutôt que de passer l'aspirateur sur le Web. Cela ne semble pas s'être produit.

Kuhn soutient que le statu quo ne doit pas être maintenu et ajoute que le SFC discute de GitHub de Microsoft avec son avocat spécialisé dans les litiges depuis un an maintenant.

"Nous sommes à un carrefour de notre culture, qui a été prédit à bien des égards par la science-fiction", a-t-il déclaré.

« Les entreprises Big Tech, de toutes sortes de manières, cherchent à nous imposer leurs conclusions préférées sur les applications de l'intelligence artificielle - indépendamment de ce que dit la loi ou des valeurs de la communauté des utilisateurs, des consommateurs et des développeurs. FOSS, et l'exploitation inappropriée de FOSS par GitHub de Microsoft, n'est qu'une façon parmi tant d'autres d'y parvenir. Nous devons résister au comportement de Big Tech ici, et nous prévoyons de le faire.

Interrogé sur le résultat idéal, Butterick a répondu qu'il était trop tôt pour le dire.

"Il y a tellement de choses que nous ne savons pas sur le fonctionnement de Copilot", a-t-il écrit.

« Certes, nous pouvons imaginer des versions de Copilot plus respectueuses des droits et intérêts des développeurs open source. Dans l'état actuel des choses, c'est potentiellement une menace existentielle pour l'open source.

« De toute évidence, il est ironique que GitHub, une entreprise qui a bâti sa réputation et sa valeur marchande sur ses liens profonds avec la communauté open source, publie un produit qui monétise l'open source d'une manière qui nuit à la communauté. D'un autre côté, compte tenu de la longue histoire d'antagonisme de Microsoft envers l'open source, ce n'est peut-être pas si surprenant. Lorsque Microsoft a acheté GitHub en 2018, de nombreux développeurs open source - moi y compris - espéraient le meilleur. Apparemment, cet espoir était mal placé. ®

Intelligence de données générative

Comment GitHub Copilot pourrait entraîner Microsoft dans une tempête de droits d'auteur

'Impatient'

AVC

Bitcoin est en tête des ventes NFT sur 30 jours, dépassant 24 concurrents de la blockchain

Dernières informations

Donner la priorité à l’avantage du premier arrivé sur la sécurité rend les protocoles Defi vulnérables aux piratages – Nikita Ovchinnik

HKTDC dévoile des événements liés aux cadeaux, à l'impression, à l'emballage et aux licences

Carlie Hanson rend hommage avec sa reprise sincère de "Nutshell" d'Alice In Chains

Hyundai construira davantage d’hybrides pour compléter le ralentissement de la demande de véhicules électriques – Autoblog

Drake menacé de poursuites pour les voix de Tupac AI

NFT Trump Bitcoin exclusifs avec ordinaux personnalisés pour les acheteurs de « Mugshot Edition » – CryptoInfoNet