Logo Zéphyrnet

IA générative : la première ébauche, pas la version finale – KDnuggets

Date :

Par : Numa Dhamani et Maggie Engler

IA générative : la première ébauche, pas la version finale
 

On peut dire sans se tromper que l’IA est en pleine expansion. Depuis que ChatGPT, l'agent conversationnel d'OpenAI, est devenu viral de manière inattendue à la fin de l'année dernière, l'industrie technologique s'intéresse aux grands modèles de langage (LLM), la technologie derrière ChatGPT. Google, Meta et Microsoft, en plus de startups bien financées comme Anthropic et Cohere, ont tous lancé leurs propres produits LLM. Des entreprises de tous secteurs se sont précipitées pour intégrer les LLM dans leurs services : OpenAI à elle seule compte des clients allant des fintechs comme Stripe qui alimentent les chatbots du service client, aux edtechs comme Duolingo et Khan Academy générant du matériel pédagogique, en passant par les sociétés de jeux vidéo comme Inworld qui exploitent les LLM pour dialoguer. PNJ (personnages non jouables) à la volée. Grâce à ces partenariats et à son adoption généralisée, OpenAI serait en passe de générer plus d’un milliard de dollars de revenus annuels. Il est facile d'être impressionné par le dynamisme de ces modèles : le rapport technique sur GPT-4, le dernier des LLM d'OpenAI, montre que le modèle obtient des scores impressionnants sur un large éventail de critères académiques et professionnels, y compris l'examen du barreau ; le SAT, le LSAT et le GRE ; et examens AP dans des matières telles que l'histoire de l'art, la psychologie, les statistiques, la biologie et l'économie. 

Ces résultats spectaculaires pourraient suggérer la fin du travailleur du savoir, mais il existe une différence essentielle entre GPT-4 et un expert humain : GPT-4 n’a pas compréhension. Les réponses générées par GPT-4 et tous les LLM ne proviennent pas de processus de raisonnement logique mais d'opérations statistiques. Les grands modèles de langage sont formés sur de grandes quantités de données provenant d'Internet. Les robots d'exploration Web –– des robots qui visitent des millions de pages Web et téléchargent leur contenu –– produisent des ensembles de données de texte à partir de toutes sortes de sites : médias sociaux, wikis et forums, sites Web d'actualités et de divertissement. Ces ensembles de données textuelles contiennent des milliards, voire des milliards de mots, qui sont pour la plupart disposés en langage naturel : mots formant des phrases, phrases formant des paragraphes. 

Afin d'apprendre à produire un texte cohérent, les modèles s'entraînent sur ces données sur des millions d'exemples de complétion de texte. Par exemple, l'ensemble de données d'un modèle donné peut contenir des phrases telles que « C'était une nuit sombre et orageuse » et « La capitale de l'Espagne est Madrid ». À maintes reprises, le modèle essaie de prédire le mot suivant après avoir vu « Il faisait sombre et » ou « La capitale de l'Espagne est », puis vérifie si c'était correct ou non, se mettant à jour chaque fois qu'il est faux. Au fil du temps, le modèle s'améliore de plus en plus dans cette tâche de complétion de texte, de sorte que pour de nombreux contextes — en particulier ceux où le mot suivant est presque toujours le même, comme « La capitale de l'Espagne est » — la réponse considérée comme la plus probable par le modèle C’est ce qu’un humain considérerait comme la réponse « correcte ». Dans les contextes où le mot suivant peut être plusieurs choses différentes, comme « Il faisait sombre et », le modèle apprendra à sélectionner ce que les humains considéreraient comme étant au moins un choix raisonnable, peut-être « orageux », mais peut-être « sinistre ». ou « moisi » à la place. Cette phase du cycle de vie LLM, où le modèle s'entraîne sur de grands ensembles de données textuelles, est appelée pré-formation. Pour certains contextes, le simple fait de prédire quel mot devrait venir ensuite ne donnera pas nécessairement les résultats souhaités ; le modèle pourrait ne pas être en mesure de comprendre qu'il doit répondre à des instructions telles que « Écrire un poème sur un chien » avec un poème plutôt que de continuer avec l'instruction. Pour produire certains comportements comme suivre des instructions et améliorer la capacité du modèle à effectuer des tâches particulières, comme écrire du code ou avoir des conversations informelles avec des personnes, les LLM sont ensuite formés sur des ensembles de données ciblés conçus pour inclure des exemples de ces tâches.

Cependant, la tâche même des LLM formés à générer du texte en prédisant les prochains mots probables conduit à un phénomène connu sous le nom de hallucinations, un piège technique bien documenté où les LLM inventent en toute confiance des informations et des explications incorrectes lorsqu'ils y sont invités. La capacité des LLM à prédire et à compléter un texte repose sur des modèles appris au cours du processus de formation, mais lorsqu'ils sont confrontés à des achèvements incertains ou multiples possibles, les LLM sélectionnent l'option qui semble la plus plausible, même si elle manque de fondement dans la réalité.

Par exemple, lorsque Google a lancé son chatbot, Bard, il a commis une erreur factuelle lors de sa toute première démo publique. Barde tristement célèbre que le télescope spatial James Webb (JWST) « a pris les toutes premières photos d’une planète en dehors de notre propre système solaire ». Mais en réalité, le la première image d'une exoplanète a été prise en 2004 par le Très Grand Télescope (VLT) tandis que JWST n'a été lancé qu'en 2021.

Les hallucinations ne sont pas le seul défaut des LLM : la formation sur des quantités massives de données Internet entraîne également directement des problèmes de biais et de droits d'auteur. Tout d'abord, discutons biais, qui fait référence aux résultats disparates d'un modèle selon les attributs de l'identité personnelle, tels que la race, le sexe, la classe sociale ou la religion. Étant donné que les LLM apprennent des caractéristiques et des modèles à partir des données Internet, ils ont malheureusement aussi des préjugés humains, des injustices historiques et des associations culturelles. Même si les humains sont biaisés, les LLM le sont pair pire car ils ont tendance à amplifier les biais présents dans les données de formation. Pour les LLM, les hommes sont des médecins, des ingénieurs et des PDG à succès, les femmes sont solidaires, de belles réceptionnistes et infirmières, et les personnes LGBTQ n'existent pas. 

La formation des LLM sur des quantités insondables de données Internet soulève également des questions sur les problèmes de droits d'auteur. Droits d'auteur sont des droits exclusifs sur une œuvre de création, où le titulaire du droit d'auteur est la seule entité habilitée à reproduire, distribuer, exposer ou exécuter l'œuvre pendant une durée définie.

À l'heure actuelle, la principale préoccupation juridique concernant les LLM n'est pas centrée sur la protection des droits d'auteur de leurs résultats, mais plutôt sur la violation potentielle des droits d'auteur existants de la part des artistes et écrivains dont les créations contribuent à leurs ensembles de données de formation. Le La Guilde des auteurs a fait appel à OpenAI, Google, Meta et Microsoft, entre autres, doivent consentir, créditer et rémunérer équitablement les auteurs pour l'utilisation de matériels protégés par le droit d'auteur dans la formation des LLM. Certains auteurs et éditeurs ont également pris cette affaire en main.

Les développeurs de LLM font actuellement face à plusieurs poursuites judiciaires de la part d'individus et de groupes pour des raisons de droits d'auteur –– Sarah Silverman, comédienne et actrice, rejoint une classe d'auteurs et d'éditeurs qui intentent une action en justice contre OpenAI, affirmant qu'ils n'ont jamais accordé la permission que leurs livres protégés par le droit d'auteur soient utilisés pour la formation des LLM.

Même si les préoccupations liées aux hallucinations, aux préjugés et aux droits d’auteur comptent parmi les problèmes les mieux documentés associés aux LLM, ils ne constituent en aucun cas les seules préoccupations. Pour n’en nommer que quelques-uns, les LLM codent des informations sensibles, produisent des résultats indésirables ou toxiques et peuvent être exploités par des adversaires. Il ne fait aucun doute que les LLM excellent dans la génération de textes cohérents et contextuellement pertinents et devraient certainement être exploités pour améliorer l'efficacité, entre autres avantages, dans une multitude de tâches et de scénarios.

Les chercheurs s’efforcent également de résoudre certains de ces problèmes, mais la manière de contrôler au mieux les résultats du modèle reste une question de recherche ouverte, de sorte que les LLM existants sont loin d’être infaillibles. Leurs résultats doivent toujours être examinés pour en vérifier l’exactitude, la réalité et les biais potentiels. Si vous obtenez un résultat qui est juste trop beau pour être vrai, cela devrait inciter vos sens d’araignée à faire preuve de prudence et à scruter davantage. La responsabilité incombe aux utilisateurs de valider et de réviser tout texte généré à partir des LLM, ou comme nous aimons le dire, IA générative : c'est votre première ébauche, pas la finale.

 
 
Maggie Engler est un ingénieur et chercheur qui travaille actuellement sur la sécurité des grands modèles de langage. Elle se concentre sur l’application de la science des données et de l’apprentissage automatique aux abus dans l’écosystème en ligne et est une experte dans le domaine de la cybersécurité, de la confiance et de la sécurité. Maggie est une éducatrice et une communicatrice engagée, enseignant en tant qu'instructrice adjointe à l'Université du Texas à l'Austin School of Information.
 

Numa Dhamani est un ingénieur et chercheur travaillant à l’intersection de la technologie et de la société. Elle est une experte en traitement du langage naturel avec une expertise dans les domaines des opérations d'influence, de la sécurité et de la confidentialité. Numa a développé des systèmes d'apprentissage automatique pour les entreprises Fortune 500 et les plateformes de médias sociaux, ainsi que pour les start-ups et les organisations à but non lucratif. Elle a conseillé des entreprises et des organisations, a été chercheuse principale sur les programmes de recherche du ministère de la Défense des États-Unis et a contribué à plusieurs revues internationales à comité de lecture.

spot_img

Dernières informations

spot_img