Logo Zéphyrnet

Une brève histoire de l’IA générative – DATAVERSITY

Date :

IA générativeIA générative
Ole.CNX / Shutterstock

L’IA générative a une histoire assez courte, la technologie ayant été initialement introduite dans les années 1960, sous la forme de chatbots. Il s’agit d’une forme d’intelligence artificielle qui peut actuellement produire du texte, des images, des vidéos, de l’audio et des données synthétiques de haute qualité en quelques secondes. Cependant, ce n’est qu’en 2014, lorsque le concept de réseau contradictoire génératif (GAN) a été introduit, que l’IA générative a évolué au point de pouvoir créer des images, des vidéos et des fichiers audio qui semblent être des enregistrements authentiques de personnes réelles.

Actuellement, l'IA générative est une composante majeure de ChatGPT et de ses variantes.

Les 1950s

L'IA générative est basée sur machine learning et des algorithmes d'apprentissage profond. Le premier algorithme d’apprentissage automatique a été développé par Arthur Samuel en 1952 pour jouer aux dames – il a également inventé l’expression « apprentissage automatique ».

Le premier « réseau neuronal » capable d’être entraîné s’appelle le Perceptron, et a été développé en 1957 par un psychologue de l'Université Cornell, Frank Rosenblatt. La conception du Perceptron était très similaire aux réseaux de neurones modernes, mais ne comportait qu'une « une » couche contenant des seuils et des poids réglables, qui séparait les couches d'entrée et de sortie. Ce système a échoué car il prenait trop de temps.

Les 1960s et 1970s

Le premier exemple historique d’IA générative s’appelle ELIZA. Il pourrait également être considéré comme une première version des chatbots. Elle a été créée en 1961 par Joseph Weizenbaum. ELIZA était un programme informatique parlant qui répondait à un humain, en utilisant un langage naturel et des réponses conçues pour paraître empathiques.

Au cours des années 1960 et 70, des recherches fondamentales sur la vision par ordinateur et certains modèles de reconnaissance de base ont été menées. La reconnaissance faciale a fait un bond en avant spectaculaire lorsque Ann B. Lesk, Leon D. Harmon et AJ Goldstein ont considérablement augmenté sa précision (Interaction homme-machine dans l'identification du visage humain, 1972). L’équipe a développé 21 marqueurs spécifiques, incluant des caractéristiques telles que l’épaisseur des lèvres et la couleur des cheveux, pour identifier automatiquement les visages. 

Dans les années 1970, la rétropropagation a commencé à être utilisée par Seppo Linnainmaa. Le terme "rétropropagation» est un processus de propagation des erreurs, vers l’arrière, dans le cadre du processus d’apprentissage. Les étapes impliquées sont:

  1. Traité à la fin de la sortie
  2. Envoyé pour être distribué à l'envers 
  3. Déplacé à travers les couches du réseau pour la formation et l'apprentissage 

(La rétropropagation est utilisée dans la formation des réseaux de neurones profonds.) 

Le premier hiver de l’IA sépare l’apprentissage automatique et l’intelligence artificielle

Le premier hiver de l’IA a commencé et s'est terminé entre 1973 et 1979 environ, des promesses ont été faites, mais les attentes n'ont pas été tenues. Les agences qui avaient financé la recherche sur l’intelligence artificielle (Darpa, NRC et gouvernement britannique) ont été soudainement embarrassées par l’absence de progrès dans son développement. 

Cependant, l’apprentissage automatique (ML) a continué d’évoluer. Non pas parce qu’il recevait toujours un financement gouvernemental, mais parce que l’apprentissage automatique était devenu extrêmement utile aux entreprises en tant qu’outil de réponse. Apprentissage automatique avait commencé comme technique de formation pour l’IA, mais on a découvert qu’elle pouvait également être utilisée pour effectuer des tâches simples, comme répondre au téléphone et transférer des appels à la personne appropriée. Même si les programmes de ML ne sont peut-être pas capables de mener une conversation intelligente, ils peuvent effectuer des tâches basiques mais très utiles. Les entreprises ne souhaitaient pas renoncer à un outil à la fois rentable et utile.

Les entreprises ont choisi de financer leurs propres recherches pour le développement de l’apprentissage automatique, et les anciens chercheurs se sont réorganisés en une industrie distincte – jusqu’à fusionner à nouveau avec l’IA dans les années 1990.

Bien que les réseaux de neurones aient été proposés en 1944 par deux chercheurs de l'Université de Chicago, Warren McCullough et Walter Pitts, le premier réseau de neurones artificiels « multicouches » fonctionnel, le Cognitron, a été développé en 1975 par Kunihiko Fukushima.

Les réseaux de neurones jettent les bases de l’utilisation de l’apprentissage automatique et de l’apprentissage profond. Leur conception prend en charge les couches d'entrée et de sortie, et les couches cachées entre elles sont utilisées pour transformer les données d'entrée, les rendant utiles à la couche de sortie. Avec ce nouveau design, la reconnaissance faciale et vocale s'est considérablement améliorée. Les couches cachées constituent également la base de l’apprentissage profond.

En 1979, KunhikoFukushima a suggéré de développer un réseau neuronal artificiel hiérarchique et multicouche, qu'il a nommé Néocognitron. Il s'agissait du premier réseau neuronal d'apprentissage profond. Sa conception a permis à l'ordinateur d'apprendre à identifier des modèles visuels, et plus particulièrement à reconnaître des caractères manuscrits. Sa conception permettait également d’ajuster manuellement des données importantes, permettant ainsi aux humains d’augmenter le « poids » de certaines connexions.

Les années 1980 et le deuxième hiver de l’IA

En 1982, une autre découverte fut faite par John Hopfield, qui développa une nouvelle forme de réseau neuronal : le filet Hopfield – en utilisant une approche totalement différente. Le réseau Hopfield collectait et récupérait des souvenirs plus comme le faisait le cerveau humain que ne le faisaient les systèmes précédents.

Cependant, le deuxième hiver de l’IA a commencé vers 1984 et s’est poursuivi jusqu’en 1990, ralentissant le développement de l’intelligence artificielle ainsi que de l’IA générative. La colère et la frustration suscitées par les promesses et les attentes non tenues étaient si intenses que le terme « intelligence artificielle » a pris le statut de pseudoscience et a souvent été évoqué avec mépris. Un large sentiment de scepticisme s’est développé à l’égard de l’IA. Le financement a malheureusement été réduit pour la majorité de la recherche sur l’IA et l’apprentissage profond.

En 1986, David Rumelhart et son équipe ont introduit A new way de formation de réseaux de neurones, en utilisant la technique de rétropropagation développée dans les années 1970.

À la fin des années 1980, MOS (Semi-conducteurs à oxyde métallique), développé en 1959) ont fusionné avec VLSI (très grande échelle d'intégration) et a fourni un réseau neuronal artificiel plus pratique et plus efficace. Cette combinaison s'appelait un MOS complémentaire (ou un CMOS).

L'apprentissage profond est devenu une réalité fonctionnelle en 1989, lorsque Yann LeCun et son équipe ont utilisé un algorithme de rétropropagation avec des réseaux de neurones pour reconnaître les codes postaux manuscrits.

L'apprentissage en profondeur utilise des algorithmes pour traiter les données et imiter le processus de pensée humaine. Il utilise des couches d'algorithmes conçus pour traiter les données, reconnaître visuellement les objets et comprendre la parole humaine. Les données se déplacent à travers chaque couche, la sortie de la couche précédente présentant les entrées nécessaires à la couche suivante. Dans l’apprentissage profond, les couches supplémentaires utilisées fournissent des « abstractions » de plus haut niveau, produisant de meilleures prédictions et de meilleures classifications. Plus le nombre de couches utilisées est élevé, plus le potentiel d’obtention de meilleures prédictions est grand. 

L'apprentissage profond est devenu un processus de formation extrêmement utile, prenant en charge la reconnaissance d'images, la reconnaissance vocale et le traitement de grandes quantités de données.

Les années 1990 et la reprise de la recherche sur l’IA

Le financement de l’intelligence artificielle ayant repris dans les années 1990, l’apprentissage automatique, en tant que mécanisme de formation, a également bénéficié d’un financement. L’industrie de l’apprentissage automatique a continué ses recherches sur les réseaux neuronaux au cours du deuxième hiver de l’IA et a commencé à prospérer dans les années 1990. Une grande partie du succès continu de l’apprentissage automatique réside dans l’utilisation de la reconnaissance des caractères et de la parole, combinée à la croissance fulgurante d’Internet et de l’utilisation des ordinateurs personnels.

Le concept de « boosting » a été partagé en 1990, dans le journal La force d’une faible capacité d’apprentissage, de Robert Schapire. Il a expliqué qu’un ensemble d’apprenants faibles peut créer un seul apprenant fort. Algorithmes de boost réduire les biais au cours du processus d’apprentissage supervisé et inclure des algorithmes d’apprentissage automatique capables de transformer plusieurs apprenants faibles en quelques apprenants forts. (Les apprenants faibles font des prédictions correctes dans un peu plus de 50 % du temps.) 

L’industrie du jeu vidéo mérite d’être largement félicitée pour avoir contribué à l’évolution de l’IA générative. Cartes graphiques 3D, les précurseurs des unités de traitement graphique (GPU), ont été introduits pour la première fois au début des années 1990 pour améliorer la présentation des graphiques dans les jeux vidéo. 

En 1997, Juergen Schmidhuber et Sepp Hochreiter créent le «longue mémoire à court terme» (LSTM) à utiliser avec les réseaux de neurones récurrents. Actuellement, la majorité des formations en reconnaissance vocale utilisent cette technique. LSTM prend en charge les tâches d'apprentissage qui nécessitent une mémoire couvrant des événements des milliers d'étapes plus tôt, et qui sont souvent importantes lors des conversations.

Nvidia (responsable de nombreuses avancées technologiques dans les jeux) a développé un GPU avancé en 1999, avec des vitesses de calcul multipliées par mille. Leur premier GPU s'appelait le GeForce 256

Il était surprenant de constater que les GPU pouvaient être utilisés pour autre chose que les jeux vidéo. Les nouveaux GPU ont été appliqués aux réseaux de neurones artificiels, avec des résultats étonnamment positifs. GPU sont devenus très utiles dans l’apprentissage automatique, utilisant environ 200 fois plus de processeurs par puce qu’une unité centrale de traitement. (Unités centrales de traitement, ou les processeurs, sont cependant plus flexibles et effectuent une plus large sélection de calculs, tandis que les GPU ont tendance à être adaptés à des cas d'utilisation spécifiques.)

Les 2000s

Le Grand Défi de la reconnaissance faciale, un promotion pour améliorer La technologie de reconnaissance faciale a été financée par le gouvernement américain et a eu lieu entre 2004 et 2006. Elle a abouti à de nouvelles techniques de reconnaissance faciale et à de nouvelles performances en matière de reconnaissance faciale. Les algorithmes nouvellement développés étaient jusqu'à dix fois plus précis que les algorithmes de reconnaissance faciale utilisés en 2002. Certains algorithmes pouvaient même identifier les différences entre de vrais jumeaux.

Les années 2010 et les assistants virtuels et chatbots

Le 4 octobre 2011, Siri, le premier assistant virtuel numérique considéré comme fonctionnel, est venu en tant que service avec l'iPhone 4S. L'utilisation de Chatbots a également augmenté de manière significative. 

En 2014, le concept de réseau contradictoire génératif (GAN) a été présenté. Les GAN sont utilisés pour créer des images, des vidéos et des fichiers audio qui ressemblent à des enregistrements authentiques de situations réelles.          

Un réseau contradictoire génératif utilise deux réseaux de neurones qui ont suivi un entraînement contradictoire simultané : un réseau neuronal agit comme un discriminateur et l'autre comme un générateur. Le discriminateur a été formé pour faire la distinction entre les données générées et les données réelles. Le générateur crée des données synthétiques et tente d'imiter des données réelles. La pratique permet au générateur de mieux générer des enregistrements toujours plus réalistes pour tromper le discriminateur. Les GAN peuvent créer des données synthétiques difficiles, voire impossibles, à reconnaître comme artificielles.

Les années 2020 et des chatbots plus intelligents

En novembre 2022, OpenAI a introduit ChatGPT, une IA générative combinée à grands modèles de langage. ChatGPT et ses variantes ont atteint un nouveau niveau d'intelligence artificielle. Ces « chatbots plus intelligents » peuvent effectuer des recherches, prendre en charge une écriture raisonnablement bonne et générer des vidéos, du son et des images réalistes.

La combinaison de la formation en IA générative avec de grands modèles de langage a abouti à une intelligence artificielle dotée de la capacité de penser et de raisonner. Ils pourraient également avoir la capacité d’« imaginer ». ChatGPT a été accusé d'hallucinations, ce qui pourrait être interprété comme une utilisation de l'imagination.

spot_img

Dernières informations

spot_img