Logo Zéphyrnet

Le New York Times poursuit OpenAI et Microsoft pour des données de formation

Date :

Le New York Times a poursuivi Microsoft et OpenAI, affirmant que le duo avait violé les droits d'auteur du journal en utilisant ses articles sans autorisation pour créer ChatGPT et des modèles similaires. Il s’agit du premier grand groupe médiatique américain à traîner en justice le duo technologique pour l’utilisation d’histoires dans les données de formation.

Comme pour les combinaisons similaires – y compris action prises par divers artistes et créateurs, comme Sarah Silverman – the NYT plainte [PDF] se concentre sur l'utilisation de matériel protégé par le droit d'auteur – dans ce cas du Times – dans la formation des grands modèles de langage (LLM) derrière divers chatbots Microsoft et OpenAI et services d'IA générative.

La plainte dénonce Microsoft, non seulement pour l'investissement qu'elle a réalisé dans OpenAI, mais également pour des assistants tels que Microsoft 365 Copilot et Bing Chat, ce que la plainte allègue : « Affichez le contenu Times dans la sortie générative d'au moins deux manières : (1) en affichant des copies « mémorisées » ou des dérivés d'œuvres du Times extraites des modèles eux-mêmes, et (2) en affichant des résultats de recherche synthétiques qui sont substantiellement similaires aux œuvres du Times générées à partir de copies stockées dans l'index de recherche de Bing.

Le journal est assez contrarié que des « millions » de ses articles protégés par le droit d’auteur aient été récoltés pour former une partie des modèles de Microsoft et d’OpenAI sans autorisation, et que ces réseaux de neurones régurgitent ce travail à la demande des utilisateurs, encore une fois sans autorisation.

Dans sa plainte, le New York Times donne des exemples qui, selon lui, prouvent que ChatGPT a été formé sur son contenu. De plus, une simple question d'évitement du paywall adressée à ChatGPT semble entraîner des réponses contenant du texte protégé par le droit d'auteur.

Et c’est l’évitement du paywall du scraping de contenu d’OpenAI qui a fait l’objet d’un examen particulièrement minutieux. Selon la plainte, le journal a commencé à cacher son travail derrière un mur payant il y a 12 ans et, au troisième trimestre 2023, revendiquait 10.1 millions d'abonnés numériques et imprimés. Il vise à porter ce nombre à 15 millions d’ici fin 2027.

Les lecteurs occasionnels sont également accueillis, avec un accès gratuit à un nombre limité d'articles avant de demander un abonnement. Le NYT estime qu'il attire 50 à 100 millions d'utilisateurs par semaine avec une telle approche, la publicité remplissant encore davantage ses caisses.

La plainte explique : « Le Times dépend de ses droits exclusifs de reproduction, d’adaptation, de publication, d’exécution et d’affichage en vertu de la loi sur le droit d’auteur pour résister à ces forces. Le Times enregistre quotidiennement les droits d'auteur sur son édition imprimée depuis plus de 100 ans, maintient un paywall et a mis en œuvre des conditions de service qui fixent des limites à la copie et à l'utilisation de son contenu. Pour utiliser le contenu du Times à des fins commerciales, une partie doit d’abord contacter le Times au sujet d’un accord de licence.

Cependant, pour générer du trafic vers son site, le NYT autorise également les moteurs de recherche à accéder à son contenu et à l'indexer. "L'idée inhérente à cet échange de valeurs est que les moteurs de recherche dirigeront les utilisateurs vers les propres sites Web et applications mobiles du Times, plutôt que d'exploiter le contenu du Times pour maintenir les utilisateurs dans leur propre écosystème de recherche."

Pour utiliser le contenu du Times à des fins commerciales, une partie doit d'abord contacter le Times au sujet d'un accord de licence.

Le Times a ajouté qu'il n'avait jamais autorisé quiconque – y compris Microsoft et OpenAI – à utiliser son contenu à des fins d'IA générative. Et c’est là que réside le problème. Selon le journal, il a contacté Microsoft et OpenAI en avril 2023 pour régler le problème à l'amiable. Il a déclaré sans ambages : « Ces efforts n’ont pas abouti à une résolution. »

Nous nous retrouvons donc avec une plainte qui allègue « un modèle commercial basé sur une violation massive du droit d’auteur » et détaille le parcours d’OpenAI depuis ses débuts en tant que « société de recherche en intelligence artificielle à but non lucratif » en 2015 jusqu’au géant d’aujourd’hui.

Selon la plainte : « Malgré ses premières promesses d’altruisme, OpenAI est rapidement devenue une entreprise à but lucratif de plusieurs milliards de dollars, construite en grande partie sur l’exploitation sans licence d’œuvres protégées par le droit d’auteur appartenant au Times et à d’autres. »

Alors que faire? Sans surprise, le New York Times réclame des dommages-intérêts. Il exige également un procès devant jury et souhaite que le tribunal ordonne la destruction « de tous les modèles GPT ou autres LLM et ensembles de formation qui intègrent les travaux du Times ».

Plus tôt ce mois-ci, Axel Springer et OpenAI ont annoncé un plan pour rendre des résumés du contenu du premier – y compris du contenu payant – disponibles à partir des produits du second, y compris ChatGPT. Le plan est de garantir que les réponses aux requêtes des utilisateurs incluent l’attribution et des liens vers les articles complets.

La valeur de l’accord n’est pas claire. Selon le Financial Times, il s’agissait d’une somme à huit chiffres. Comme indiqué dans sa plainte, le New York Times a également eu des discussions, mais de toute évidence, le résultat n'a pas été satisfaisant. ®

spot_img

Dernières informations

spot_img