10 principaux modèles de langage pour la PNL en 2022

L'introduction de l'apprentissage par transfert et modèles de langage pré-entraînés dans le traitement du langage naturel (PNL) a repoussé les limites de la compréhension et de la génération du langage. Transférer l'apprentissage et l'application transformateurs aux différentes tâches PNL en aval sont devenues la tendance principale des dernières avancées de la recherche.

Dans le même temps, il y a une controverse dans la communauté PNL concernant la valeur de recherche des énormes modèles de langage pré-entraînés occupant les classements. Alors que de nombreux experts en IA sont d'accord avec Déclaration d'Anna Rogers qu'obtenir des résultats à la pointe de la technologie simplement en utilisant plus de données et de puissance de calcul n'est pas une actualité de la recherche, d'autres leaders d'opinion en PNL soulignent certains moments positifs de la tendance actuelle, comme, par exemple, de voir les limites fondamentales du paradigme actuel.

Quoi qu'il en soit, les dernières améliorations apportées aux modèles de langage PNL semblent être motivées non seulement par les augmentations massives de la capacité de calcul, mais aussi par la découverte de moyens ingénieux d'alléger les modèles tout en maintenant des performances élevées.

Pour vous aider à vous tenir au courant des dernières avancées en matière de modélisation du langage, nous avons résumé des articles de recherche présentant les principaux modèles de langage introduits au cours des dernières années.

Abonnez-vous à notre liste de diffusion AI Research au bas de cet article pour être alerté lorsque nous publions de nouveaux résumés.

Si vous souhaitez sauter, voici les articles que nous avons présentés:

Modèles de langage pré-entraînés importants

1. BERT: Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage, par Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova

Résumé original

Nous introduisons un nouveau modèle de représentation de langage appelé BERT, qui signifie Bidirectional Encoder Representations from Transformers. Contrairement aux modèles de représentation de langage récents, BERT est conçu pour pré-entraîner des représentations bidirectionnelles profondes en conditionnant conjointement le contexte gauche et droit dans toutes les couches. En conséquence, les représentations BERT pré-entraînées peuvent être affinées avec une seule couche de sortie supplémentaire pour créer des modèles de pointe pour un large éventail de tâches, telles que la réponse aux questions et l'inférence linguistique, sans tâche substantielle. modifications d'architecture spécifiques.

BERT est conceptuellement simple et empiriquement puissant. Il obtient de nouveaux résultats à la pointe de la technologie sur onze tâches de traitement du langage naturel, notamment en poussant le repère GLUE à 80.4% (7.6% d'amélioration absolue), la précision MultiNLI à 86.7 (5.6% d'amélioration absolue) et la question SQuAD v1.1 répondant au test F1 à 93.2 (amélioration absolue de 1.5%), surpassant les performances humaines de 2.0%.

Notre résumé

Une équipe Google AI présente un nouveau modèle de pointe pour le traitement du langage naturel (NLP) - BERTou Bidirectionnel Eencodeur Rprésentations de Transformers. Sa conception permet au modèle de considérer le contexte des côtés gauche et droit de chaque mot. Tout en étant conceptuellement simple, BERT obtient de nouveaux résultats de pointe sur onze tâches PNL, y compris la réponse aux questions, la reconnaissance d'entités nommées et d'autres tâches liées à la compréhension générale du langage.

Principaux documents de recherche PNL de 2018 résumés par Mariya Yao TOPBOTS

Quelle est l'idée centrale de ce document?

Entraîner un modèle bidirectionnel profond en masquant de manière aléatoire un pourcentage de jetons d'entrée - évitant ainsi les cycles où les mots peuvent indirectement «se voir».
Également pré-former un modèle de relation de phrase en construisant une tâche de classification binaire simple pour prédire si la phrase B suit immédiatement la phrase A, permettant ainsi à BERT de mieux comprendre les relations entre les phrases.
Entraînement d'un très gros modèle (24 blocs Transformer, 1024-cachés, 340M paramètres) avec beaucoup de données (corpus de 3.3 milliards de mots).

Quelle est la principale réalisation?

Faire progresser l'état de l'art pour 11 tâches PNL, notamment:
- obtenir un score GLUE de 80.4%, soit 7.6% d'amélioration absolue par rapport au meilleur résultat précédent;
- atteignant 93.2% de précision sur SQuAD 1.1 et surpassant les performances humaines de 2%.
Suggérer un modèle pré-entraîné, qui ne nécessite aucune modification d'architecture substantielle pour être appliqué à des tâches PNL spécifiques.

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Tester la méthode sur un plus large éventail de tâches.
Enquêter sur les phénomènes linguistiques qui peuvent ou non être capturés par le BERT.

Quelles sont les applications commerciales possibles?

BERT peut aider les entreprises avec un large éventail de problèmes de PNL, y compris:
- des chatbots pour une meilleure expérience client;
- analyse des avis clients;
- la recherche d'informations pertinentes, etc.

Où pouvez-vous obtenir le code d'implémentation?

2. Les modèles de langage sont des apprenants multitâches non supervisés, par Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever

Résumé original

Tâches de traitement du langage naturel, telles que q
la réponse aux questions, la traduction automatique, la compréhension de la lecture et la synthèse sont généralement abordées avec un apprentissage supervisé sur des ensembles de données spécifiques à une tâche. Nous démontrons que les modèles de langage commencent à apprendre ces tâches sans aucune supervision explicite lorsqu'ils sont formés sur un nouvel ensemble de données de millions de pages Web appelé WebText. Lorsqu'elles sont conditionnées sur un document plus des questions, les réponses générées par le modèle linguistique atteignent 55 F1 sur l'ensemble de données CoQA, ce qui correspond ou dépasse les performances de 3 systèmes de base sur 4 sans utiliser les plus de 127,000 2 exemples de formation. La capacité du modèle de langage est essentielle au succès du transfert de tâches sans coup sûr et son augmentation améliore les performances de manière log-linéaire entre les tâches. Notre plus grand modèle, GPT-1.5, est un transformateur de paramètres de 7 B qui permet d'obtenir des résultats de pointe sur 8 ensembles de données de modélisation de langage testés sur XNUMX dans un cadre zéro coup, mais qui ne convient toujours pas à WebText. Des exemples du modèle reflètent ces améliorations et contiennent des paragraphes de texte cohérents. Ces résultats suggèrent une voie prometteuse vers la construction de systèmes de traitement du langage qui apprennent à effectuer des tâches à partir de leurs démonstrations naturelles.

Notre résumé

Dans cet article, l'équipe d'OpenAI démontre que des modèles de langage pré-formés peuvent être utilisés pour résoudre des tâches en aval sans aucun paramètre ou modification de l'architecture. Ils ont formé un très gros modèle, un Transformer à 1.5B paramètres, sur un ensemble de données volumineux et diversifié contenant du texte extrait de 45 millions de pages Web. Le modèle génère des paragraphes de texte cohérents et obtient des résultats prometteurs, compétitifs ou à la pointe de la technologie sur une grande variété de tâches.

Quelle est l'idée centrale de ce document?

Formation du modèle de langage sur le vaste ensemble de données diversifié:
- sélectionner des pages Web qui ont été organisées / filtrées par des humains;
- nettoyer et dédupliquer les textes et supprimer tous les documents Wikipédia pour minimiser le chevauchement des ensembles de formation et de test;
- en utilisant le résultat WebTexte ensemble de données avec un peu plus de 8 millions de documents pour un total de 40 Go de texte.
Utilisation d'une version au niveau des octets du codage par paires d'octets (BPE) pour la représentation d'entrée.
Construire un très gros modèle basé sur Transformer, GPT-2:
- le plus grand modèle comprend 1542M paramètres et 48 couches;
- le modèle suit principalement le GPT OpenAI modèle avec peu de modifications (c.-à-d. élargir le vocabulaire et la taille du contexte, modifier l'initialisation, etc.).

Quelle est la principale réalisation?

Obtenir des résultats à la pointe de la technologie sur 7 des 8 ensembles de données de modélisation de langage testés.
Montrer des résultats assez prometteurs dans le raisonnement de bon sens, la réponse aux questions, la compréhension en lecture et la traduction.
Générer des textes cohérents, par exemple un article de presse sur le découverte des licornes parlantes.

Que pense la communauté de l'IA?

«Les chercheurs ont construit un ensemble de données intéressant, en appliquant des outils désormais standard et en produisant un modèle impressionnant.» - Zachary C. Lipton, professeur adjoint à l'Université Carnegie Mellon.

Quels sont les futurs domaines de recherche?

Enquêter sur des ajustements précis sur des indices de référence tels que décaNLP et LA COLLE pour voir si l'énorme jeu de données et la capacité de GPT-2 peuvent surmonter les inefficacités des représentations unidirectionnelles de BERT.

Quelles sont les applications commerciales possibles?

En termes d'applications pratiques, les performances du modèle GPT-2 sans aucun réglage fin sont loin d'être utilisables mais elles montrent une direction de recherche très prometteuse.

Où pouvez-vous obtenir le code d'implémentation?

Initialement, OpenAI a décidé de ne publier qu'une version plus petite de GPT-2 avec des paramètres de 117M. le décision de ne pas sortir de plus gros modèles a été prise «en raison des préoccupations concernant l'utilisation de grands modèles linguistiques pour générer un langage trompeur, biaisé ou abusif à grande échelle».
En novembre, OpenAI enfin libéré son plus grand modèle à 1.5B paramètres. Le code est disponible ici.
Étreindre le visage a introduit une implémentation PyTorch du modèle GPT-2 initialement publié.

3. XLNet: Préentraînement autorégressif généralisé pour la compréhension du langage, par Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Résumé original

Avec la capacité de modéliser des contextes bidirectionnels, le pré-apprentissage basé sur l'autoencodage de débruitage comme BERT obtient de meilleures performances que les approches de pré-formation basées sur la modélisation du langage autorégressif. Cependant, en se fondant sur la corruption de l'entrée avec des masques, BERT néglige la dépendance entre les positions masquées et souffre d'un écart de pré-entraînement-réglage fin. À la lumière de ces avantages et inconvénients, nous proposons XLNet, une méthode de pré-entraînement autorégressive généralisée qui (1) permet d'apprendre des contextes bidirectionnels en maximisant la vraisemblance attendue sur toutes les permutations de l'ordre de factorisation et (2) surmonte les limites de BERT grâce à son autorégressif formulation. De plus, XLNet intègre les idées de Transformer-XL, le modèle autorégressif de pointe, dans le pré-entraînement. Empiriquement, XLNet surpasse le BERT sur 20 tâches, souvent de loin, et obtient des résultats de pointe sur 18 tâches, y compris la réponse aux questions, l'inférence en langage naturel, l'analyse des sentiments et le classement des documents.

Notre résumé

Les chercheurs de l'Université Carnegie Mellon et de Google ont développé un nouveau modèle, XLNet, pour les tâches de traitement du langage naturel (PNL) telles que la compréhension en lecture, la classification de texte, l'analyse des sentiments, etc. XLNet est une méthode de pré-formation autorégressive généralisée qui exploite le meilleur de la modélisation du langage autorégressif (par exemple, Transformer-XL) et de l'auto-encodage (par exemple, BERT) tout en évitant leurs limitations. Les expériences démontrent que le nouveau modèle surpasse à la fois BERT et Transformer-XL et atteint des performances de pointe sur 18 tâches PNL.

Quelle est l'idée centrale de ce document?

XLNet combine les capacité bidirectionnelle de BERT les technologie autorégressive de Transformer-XL:
- Comme BERT, XLNet utilise un contexte bidirectionnel, ce qui signifie qu'il regarde les mots avant et après un jeton donné pour prédire ce qu'il devrait être. À cette fin, XLNet maximise la log-vraisemblance attendue d'une séquence par rapport à toutes les permutations possibles de l'ordre de factorisation.
- En tant que modèle de langage autorégressif, XLNet ne repose pas sur la corruption des données, et évite ainsi les limitations de BERT dues au masquage - c'est-à-dire, la divergence de pré-entraînement-finetune et l'hypothèse que les jetons non masqués sont indépendants les uns des autres.
Pour améliorer encore les conceptions architecturales pour le pré-entraînement, XLNet intègre le mécanisme de récurrence de segment et le schéma de codage relatif de Transformer-XL.

Quelle est la principale réalisation?

XLnet surpasse BERT sur 20 tâches, souvent de loin.
Le nouveau modèle réalise des performances de pointe sur 18 tâches PNL, y compris la réponse aux questions, l'inférence en langage naturel, l'analyse des sentiments et le classement des documents.

Que pense la communauté de l'IA?

L'article a été accepté pour une présentation orale à NeurIPS 2019, la principale conférence sur l'intelligence artificielle.
"Le roi est mort. Longue vie au roi. Le règne de BERT touche peut-être à sa fin. XLNet, un nouveau modèle conçu par des membres de la CMU et de Google, surpasse BERT sur 20 tâches. » - Sebastian Ruder, chercheur chez Deepmind.
«XLNet sera probablement un outil important pour tout praticien de la PNL pendant un certain temps… [c'est] la dernière technique de pointe en PNL.» - Keita Kurita, Université Carnegie Mellon.

Quels sont les futurs domaines de recherche?

Étendre XLNet à de nouveaux domaines, tels que la vision par ordinateur et l'apprentissage par renforcement.

Quelles sont les applications commerciales possibles?

XLNet peut aider les entreprises avec un large éventail de problèmes de PNL, notamment:
- des chatbots pour le support client de première ligne ou pour répondre aux demandes de renseignements sur les produits;
- analyse des sentiments pour évaluer la notoriété et la perception de la marque en fonction des avis des clients et des médias sociaux;
- la recherche d'informations pertinentes dans des bases de documents ou en ligne, etc.

Où pouvez-vous obtenir le code d'implémentation?

4. RoBERTa: une approche de pré-formation BERT fortement optimisée, par Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov

Résumé original

La formation préalable au modèle de langage a conduit à des gains de performance significatifs, mais une comparaison minutieuse entre différentes approches est difficile. La formation est coûteuse en calcul, souvent effectuée sur des ensembles de données privés de différentes tailles, et, comme nous le montrerons, les choix d'hyperparamètres ont un impact significatif sur les résultats finaux. Nous présentons une étude de réplication du pré-entraînement BERT (Devlin et al., 2019) qui mesure soigneusement l'impact de nombreux hyperparamètres clés et la taille des données d'entraînement. Nous constatons que BERT était considérablement sous-formé, et peut égaler ou dépasser les performances de chaque modèle publié après. Notre meilleur modèle obtient des résultats de pointe sur GLUE, RACE et SQuAD. Ces résultats soulignent l'importance des choix de conception précédemment négligés et soulèvent des questions sur la source des améliorations récemment rapportées. Nous publions nos modèles et notre code.

Notre résumé

Les modèles de traitement du langage naturel ont fait des progrès significatifs grâce à l'introduction de méthodes de pré-formation, mais les frais de calcul de la formation ont rendu la réplication et la mise au point des paramètres difficiles. Dans cette étude, Facebook AI et des chercheurs de l'Université de Washington ont analysé la formation du modèle BERT (Bidirectional Encoder Representations from Transformers) de Google et identifié plusieurs changements dans la procédure de formation qui améliorent ses performances. Plus précisément, les chercheurs ont utilisé un nouvel ensemble de données plus volumineux pour la formation, ont entraîné le modèle sur beaucoup plus d'itérations et ont supprimé le prochain objectif de formation à la prédiction de séquence. Le modèle optimisé qui en résulte, RoBERTa (Robustly Optimized BERT Approach), correspond aux scores du modèle XLNet récemment introduit sur la référence GLUE.

Quelle est l'idée centrale de ce document?

L'équipe de recherche Facebook AI a constaté que le BERT était considérablement sous-formé et a suggéré une recette améliorée pour sa formation, appelée RoBERTa:
- Plus de données: 160 Go de texte au lieu de l'ensemble de données de 16 Go utilisé à l'origine pour entraîner BERT.
- Formation plus longue: augmentation du nombre d'itérations de 100K à 300K et ensuite à 500K.
- Lots plus importants: 8K au lieu de 256 dans le modèle de base BERT d'origine.
- Vocabulaire BPE de plus grand niveau d'octet avec des unités de sous-mots de 50K au lieu d'un vocabulaire BPE de niveau caractère de taille 30K.
- Suppression de l'objectif de prédiction de séquence suivant de la procédure d'entraînement.
- Modification dynamique du modèle de masquage appliqué aux données d'entraînement.

Quelle est la principale réalisation?

RoBERTa surpasse le BERT dans toutes les tâches individuelles du référentiel GLUE (General Language Understanding Evaluation).
Le nouveau modèle correspond au modèle XLNet récemment introduit sur la référence GLUE et établit un nouvel état de l'art dans quatre des neuf tâches individuelles.

Quels sont les futurs domaines de recherche?

Incorporant des procédures de réglage fin multi-tâches plus sophistiquées.

Quelles sont les applications commerciales possibles?

Les grands cadres de langage pré-formés comme RoBERTa peuvent être exploités dans le cadre de l'entreprise pour un large éventail de tâches en aval, y compris les systèmes de dialogue, la réponse aux questions, la classification de documents, etc.

Où pouvez-vous obtenir le code d'implémentation?

Les modèles et le code utilisés dans cette étude sont disponibles sur GitHub.

5. ALBERT: Un BERT simplifié pour l'apprentissage auto-supervisé des représentations linguistiques, par Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

Résumé original

L'augmentation de la taille du modèle lors du pré-apprentissage des représentations en langage naturel se traduit souvent par une amélioration des performances des tâches en aval. Cependant, à un moment donné, les augmentations de modèles supplémentaires deviennent plus difficiles en raison des limitations de la mémoire GPU / TPU, des temps d'entraînement plus longs et de la dégradation inattendue du modèle. Pour résoudre ces problèmes, nous présentons deux techniques de réduction des paramètres pour réduire la consommation de mémoire et augmenter la vitesse d'entraînement de BERT. Des preuves empiriques complètes montrent que les méthodes que nous proposons conduisent à des modèles qui évoluent beaucoup mieux que le BERT original. Nous utilisons également une perte auto-supervisée qui se concentre sur la modélisation de la cohérence inter-phrases et montre qu'elle aide systématiquement les tâches en aval avec des entrées multi-phrases. En conséquence, notre meilleur modèle établit de nouveaux résultats de pointe sur les benchmarks GLUE, RACE et SQuAD tout en ayant moins de paramètres par rapport à BERT-large.

Notre résumé

L'équipe de recherche Google aborde le problème de la taille sans cesse croissante des modèles de langage pré-entraînés, ce qui entraîne des limitations de mémoire, un temps de formation plus long et des performances parfois dégradées de manière inattendue. Plus précisément, ils introduisent Un BERT léger (ALBERT) architecture qui intègre deux techniques de réduction des paramètres: paramétrage de l'intégration factorisée et partage de paramètres entre couches. De plus, l'approche suggérée comprend une perte auto-supervisée pour prédiction de l'ordre des phrases pour améliorer la cohérence entre les phrases. Les expériences démontrent que la meilleure version d'ALBERT établit de nouveaux résultats de pointe sur les benchmarks GLUE, RACE et SQuAD tout en ayant moins de paramètres que BERT-large.

Quelle est l'idée centrale de ce document?

Il n'est pas raisonnable d'améliorer davantage les modèles de langage en les agrandissant en raison des limites de mémoire du matériel disponible, des temps d'apprentissage plus longs et de la dégradation inattendue des performances du modèle avec l'augmentation du nombre de paramètres.
Pour résoudre ce problème, les chercheurs présentent le ALBERT architecture qui intègre deux techniques de réduction des paramètres:
- paramétrage de l'intégration factorisée, où la taille des couches cachées est séparée de la taille des plongements de vocabulaire par déco
  mposer la grande matrice d'enchâssement du vocabulaire en deux petites matrices ;
- partage de paramètres entre couches pour éviter que le nombre de paramètres augmente avec la profondeur du réseau.
Les performances d'ALBERT sont encore améliorées en introduisant la perte auto-supervisée pour prédiction de l'ordre des phrases pour répondre aux limites du BERT en ce qui concerne la cohérence entre les phrases.

Quelle est la principale réalisation?

Avec les techniques de réduction des paramètres introduites, la configuration ALBERT avec 18 fois moins de paramètres et un entraînement 1.7 fois plus rapide par rapport au modèle original BERT-large n'obtient que des performances légèrement inférieures.
La configuration ALBERT beaucoup plus grande, qui a encore moins de paramètres que BERT-large, surpasse tous les modes de langage de pointe actuels en obtenant:
- 89.4% de précision sur le benchmark RACE;
- 89.4 score sur le benchmark GLUE; et
- Un score F1 de 92.2 sur le benchmark SQuAD 2.0.

Que pense la communauté de l'IA?

Le document a été soumis à ICLR 2020 et est disponible sur le Forum OpenReview, où vous pouvez voir les critiques et les commentaires des experts en PNL. Les examinateurs apprécient principalement l'article présenté.

Quels sont les futurs domaines de recherche?

Accélérer la formation et l'inférence grâce à des méthodes telles que l'attention clairsemée et le blocage de l'attention.
Améliorer davantage les performances du modèle grâce à une extraction d'exemples concrets, une formation de modèle plus efficace et d'autres approches.

Quelles sont les applications commerciales possibles?

Le modèle de langage ALBERT peut être exploité dans le cadre de l'entreprise pour améliorer les performances sur un large éventail de tâches en aval, y compris les performances du chatbot, l'analyse des sentiments, l'exploration de documents et la classification de texte.

Où pouvez-vous obtenir le code d'implémentation?

L'implémentation originale d'ALBERT est disponible sur GitHub.
Une implémentation TensorFlow d'ALBERT est également disponible ici.
Une implémentation PyTorch d'ALBERT peut être trouvée ici et ici.

6. Explorer les limites de l'apprentissage par transfert avec un transformateur de texte en texte unifié, par Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

Résumé original

L'apprentissage par transfert, où un modèle est d'abord pré-entraîné sur une tâche riche en données avant d'être affiné sur une tâche en aval, est devenu une technique puissante de traitement du langage naturel (NLP). L'efficacité de l'apprentissage par transfert a donné lieu à une diversité d'approches, de méthodologies et de pratiques. Dans cet article, nous explorons le paysage des techniques d'apprentissage par transfert pour la PNL en introduisant un cadre unifié qui convertit chaque problème de langage en un format texte-texte. Notre étude systématique compare les objectifs de pré-formation, les architectures, les ensembles de données non étiquetés, les approches de transfert et d'autres facteurs sur des dizaines de tâches de compréhension du langage. En combinant les connaissances de notre exploration avec l'échelle et notre nouveau «Colossal Clean Crawled Corpus», nous obtenons des résultats de pointe sur de nombreux benchmarks couvrant la synthèse, la réponse aux questions, la classification de texte, etc. Pour faciliter les travaux futurs sur l'apprentissage par transfert pour la PNL, nous publions notre ensemble de données, des modèles pré-entraînés et du code.

Notre résumé

L'équipe de recherche de Google suggère une approche unifiée du transfert d'apprentissage en PNL dans le but de définir un nouvel état de l'art dans le domaine. À cette fin, ils proposent de traiter chaque problème de PNL comme un problème de «texte en texte». Un tel cadre permet d'utiliser le même modèle, objectif, procédure de formation et processus de décodage pour différentes tâches, y compris la synthèse, l'analyse des sentiments, la réponse aux questions et la traduction automatique. Les chercheurs appellent leur modèle un Transformateur de transfert de texte en texte (T5) et formez-le sur le vaste corpus de données extraites du Web pour obtenir des résultats de pointe sur un certain nombre de tâches PNL.

Quelle est l'idée centrale de ce document?

Le document a plusieurs contributions importantes:
- Fournir une perspective complète sur la position du domaine de la PNL en explorant et en comparant les techniques existantes.
- Introduire une nouvelle approche du transfert d'apprentissage en PNL en suggérant de traiter chaque problème de PNL comme un texte en texte tâche:
  - Le modèle comprend quelles tâches doivent être effectuées grâce au préfixe spécifique à la tâche ajouté à la phrase d'entrée d'origine (par exemple, «traduire l'anglais en allemand:», «résumer:»).
- Présentant et publiant un nouvel ensemble de données composé de centaines de gigaoctets de texte anglais purement web-scrapé, le Corpus rampé colossal propre (C4).
- Entraînement d'un grand modèle (jusqu'à 11B paramètres), appelé Transformateur de transfert de texte en texte (T5) sur l'ensemble de données C4.

Quelle est la principale réalisation?

Le modèle T5 avec 11 milliards de paramètres a atteint des performances de pointe sur 17 des 24 tâches envisagées, notamment:
- a LA COLLE score de 89.7 avec des performances nettement améliorées sur les tâches CoLA, RTE et WNLI;
- un score Exact Match de 90.06 sur le Équipe base de données;
- a Super colle score de 88.9, ce qui est une amélioration très significative par rapport au précédent résultat de pointe (84.6) et très proche de la performance humaine (89.8)
- un score ROUGE-2-F de 21.55 au CNN / Daily Mail tâche de synthèse abstractive.

Quels sont les futurs domaines de recherche?

Recherche de méthodes pour obtenir de meilleures performances avec des modèles moins chers.
Explorer des techniques d'extraction de connaissances plus efficaces.
Étude plus approfondie des modèles indépendants de la langue.

Quelles sont les applications commerciales possibles?

Même si le modèle introduit a des milliards de paramètres et peut être trop lourd pour être appliqué dans le cadre de l'entreprise, les idées présentées peuvent être utilisées pour améliorer les performances sur différentes tâches PNL, y compris la synthèse, la réponse aux questions et l'analyse des sentiments.

Où pouvez-vous obtenir le code d'implémentation?

Les modèles pré-entraînés ainsi que l'ensemble de données et le code sont publiés le GitHub.

7. Les modèles de langage sont des apprenants peu expérimentés, de Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child , Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu,
Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei

Résumé original

Des travaux récents ont démontré des gains substantiels sur de nombreuses tâches et repères de la PNL grâce à une formation préalable sur un vaste corpus de texte, suivie d'une mise au point sur une tâche spécifique. Bien que généralement indépendante des tâches en architecture, cette méthode nécessite toujours des ensembles de données de réglage fin spécifiques aux tâches de milliers ou de dizaines de milliers d'exemples. En revanche, les humains peuvent généralement effectuer une nouvelle tâche de langage à partir de seulement quelques exemples ou d'instructions simples - ce que les systèmes PNL actuels ont encore beaucoup de mal à faire. Ici, nous montrons que la mise à l'échelle des modèles de langage améliore considérablement les performances en peu de temps, indépendantes des tâches, atteignant parfois même la compétitivité avec des approches de réglage fin de pointe. Plus précisément, nous formons GPT-3, un modèle de langage autorégressif avec 175 milliards de paramètres, 10 fois plus que tout autre modèle de langage non clairsemé précédent, et testons ses performances dans le cadre de quelques plans. Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour de dégradé ni réglage fin, avec des tâches et des démonstrations en quelques plans spécifiées uniquement via une interaction textuelle avec le modèle. GPT-3 réalise de solides performances sur de nombreux ensembles de données PNL, y compris les tâches de traduction, de réponse aux questions et de cloze, ainsi que plusieurs tâches qui nécessitent un raisonnement à la volée ou une adaptation de domaine, comme le déchiffrement de mots, l'utilisation d'un nouveau mot dans phrase, ou effectuer une arithmétique à 3 chiffres. Dans le même temps, nous identifions également certains ensembles de données sur lesquels l'apprentissage en quelques étapes de GPT-3 est encore en difficulté, ainsi que certains ensembles de données où GPT-3 est confronté à des problèmes méthodologiques liés à la formation sur de grands corpus Web. Enfin, nous constatons que GPT-3 peut générer des échantillons d'articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains. Nous discutons des impacts sociétaux plus larges de cette découverte et du GPT-3 en général.

Notre résumé

L'équipe de recherche d'OpenAI attire l'attention sur le fait que la nécessité d'un ensemble de données étiqueté pour chaque nouvelle tâche de langage limite l'applicabilité des modèles de langage. Étant donné qu'il existe un large éventail de tâches possibles et qu'il est souvent difficile de collecter un grand ensemble de données de formation étiquetées, les chercheurs suggèrent une solution alternative, qui consiste à étendre les modèles de langage pour améliorer les performances de quelques plans indépendants des tâches. Ils testent leur solution en formant un modèle de langage autorégressif à 175B paramètres, appelé GPT-3, et évaluer ses performances sur plus de deux douzaines de tâches PNL. L'évaluation dans le cadre de l'apprentissage en quelques étapes, de l'apprentissage en une seule fois et de l'apprentissage en un seul coup démontre que GPT-3 obtient des résultats prometteurs et surpasse même parfois l'état de l'art obtenu par des modèles affinés.

Quelle est l'idée centrale de ce document?

La GPT-3 model utilise le même modèle et la même architecture que GPT-2, y compris l'initialisation modifiée, la pré-normalisation et la tokenisation réversible.
Cependant, contrairement à GPT-2, il utilise des motifs d'attention clairsemés alternés denses et localement bagués dans les couches du transformateur, comme dans le Transformateur clairsemé.
Le modèle est évalué dans trois contextes différents:
- Apprentissage peu poussé, lorsque le modèle reçoit quelques démonstrations de la tâche (généralement 10 à 100) au moment de l'inférence, mais sans mise à jour de poids autorisée.
- Apprentissage unique, lorsqu'une seule démonstration est autorisée, accompagnée d'une description en langage naturel de la tâche.
- Apprentissage sans coupure, lorsqu'aucune démonstration n'est autorisée et que le modèle n'a accès qu'à une description en langage naturel de la tâche.

Quelle est la principale réalisation?

Le modèle GPT-3 sans réglage fin obtient des résultats prometteurs sur un certain nombre de tâches PNL et surpasse même parfois les modèles de pointe qui ont été affinés pour cette tâche spécifique:
- Sur le CoQA référence, 81.5 F1 dans le réglage zéro coup, 84.0 F1 dans le réglage one-shot et 85.0 F1 dans le réglage quelques coups, par rapport au score de 90.7 F1 obtenu par un SOTA affiné.
- Sur le QuizQA référence, 64.3% de précision dans le réglage zéro coup, 68.0% dans le réglage one-shot et 71.2% dans le réglage à quelques coups, dépassant l'état de l'art (68%) de 3.2%.
- Sur le LAMBADA ensemble de données, 76.2% de précision dans le réglage zéro coup, 72.5% dans le réglage one-shot et 86.4% dans le réglage à quelques coups, dépassant de 68% l'état de l'art (18%).
Les articles de presse générés par le modèle GPT-175 à 3B paramètres sont difficiles à distinguer des vrais, selon les évaluations humaines (avec une précision à peine supérieure au niveau de chance à ~ 52%).

Quels sont les futurs domaines de recherche?

Amélioration de l'efficacité des échantillons de pré-formation.
Explorer le fonctionnement de l'apprentissage par étapes.
Distillation de grands modèles jusqu'à une taille gérable pour des applications réelles.

Que pense la communauté de l'IA?

«Le battage médiatique du GPT-3 est beaucoup trop. C'est impressionnant (merci pour les gentils compliments!) Mais il a encore de sérieuses faiblesses et fait parfois des erreurs très ridicules. L'IA va changer le monde, mais GPT-3 n'est qu'un aperçu très précoce. Nous avons encore beaucoup à découvrir. » - Sam Altman, PDG et co-fondateur d'OpenAI.
«Je suis choqué de voir à quel point il est difficile de générer un texte sur les musulmans à partir du GPT-3 qui n'a rien à voir avec la violence… ou le fait d'être tué…» - Abubakar Abid, PDG et fondateur de Gradio.
"Non. GPT-3 ne comprend pas fondamentalement le monde dont il parle. L'augmentation du corpus lui permettra de générer un pastiche plus crédible mais ne corrigera pas son manque fondamental de compréhension du monde. Les démos de GPT-4 nécessiteront toujours une sélection humaine. » - Gary Marcus, PDG et fondateur de Robust.ai.
«L'extrapolation des performances spectaculaires de GPT3 dans le futur suggère que la réponse à la vie, à l'univers et à tout n'est que de 4.398 milliards de paramètres.» - Geoffrey Hinton, lauréat du prix Turing.

Quelles sont les applications commerciales possibles?

Le modèle avec des paramètres 175B est difficile à appliquer à de vrais problèmes commerciaux en raison de ses besoins en ressources peu pratiques, mais si les chercheurs parviennent à ramener ce modèle à une taille réalisable, il pourrait être appliqué à un large éventail de tâches linguistiques, y compris la réponse aux questions. et la génération de copie publicitaire.

Où pouvez-vous obtenir le code d'implémentation?

Le code lui-même n'est pas disponible, mais certaines statistiques de jeux de données ainsi que des échantillons inconditionnels et non filtrés de 2048 jetons de GPT-3 sont publiés le GitHub.

8. ELECTRA: les encodeurs de texte de pré-formation comme discriminateurs plutôt que comme générateurs, par Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning

Résumé original

Les méthodes de pré-formation de modélisation de langage masqué (MLM) telles que BERT corrompent l'entrée en remplaçant certains jetons par [MASK], puis forment un modèle pour reconstruire les jetons d'origine. O
Bien qu'ils produisent de bons résultats lorsqu'ils sont transférés vers des tâches NLP en aval, ils nécessitent généralement de grandes quantités de calcul pour être efficaces. Comme alternative, nous proposons une tâche de pré-formation plus efficace en termes d'échantillon appelée détection de jeton remplacé. Au lieu de masquer l'entrée, notre approche la corrompt en remplaçant certains jetons par des alternatives plausibles échantillonnées à partir d'un petit réseau de générateurs. Ensuite, au lieu de former un modèle qui prédit les identités d'origine des jetons corrompus, nous formons un modèle discriminatif qui prédit si chaque jeton de l'entrée corrompue a été remplacé par un échantillon générateur ou non. Des expériences approfondies démontrent que cette nouvelle tâche de pré-formation est plus efficace que MLM car la tâche est définie sur tous les jetons d'entrée plutôt que sur le petit sous-ensemble qui a été masqué. En conséquence, les représentations contextuelles apprises par notre approche surpassent considérablement celles apprises par BERT étant donné la même taille de modèle, les mêmes données et le même calcul. Les gains sont particulièrement forts pour les petits modèles ; par exemple, nous formons un modèle sur un GPU pendant 4 jours qui surpasse GPT (formé en utilisant 30 fois plus de calcul) sur le benchmark de compréhension du langage naturel GLUE. Notre approche fonctionne également bien à grande échelle, où elle fonctionne de manière comparable à RoBERTa et XLNet tout en utilisant moins d'un quart de leur calcul et les surpasse lorsqu'ils utilisent la même quantité de calcul.

Notre résumé

La tâche de pré-formation pour les modèles de langage populaires tels que BERT et XLNet consiste à masquer un petit sous-ensemble d'entrées non étiquetées, puis à entraîner le réseau à récupérer cette entrée d'origine. Même si cela fonctionne assez bien, cette approche n'est pas particulièrement efficace pour les données car elle n'apprend qu'à partir d'une petite fraction de jetons (généralement ~ 15%). Comme alternative, les chercheurs de l'Université de Stanford et de Google Brain proposent une nouvelle tâche de pré-formation appelée détection de jeton remplacé. Au lieu de masquer, ils suggèrent de remplacer certains jetons par des alternatives plausibles générées par un petit modèle de langage. Ensuite, le discriminateur pré-entraîné est utilisé pour prédire si chaque jeton est un original ou un remplacement. En conséquence, le modèle apprend de tous les jetons d'entrée au lieu de la petite fraction masquée, ce qui le rend beaucoup plus efficace en termes de calcul. Les expériences confirment que l'approche introduite conduit à une formation nettement plus rapide et une plus grande précision sur les tâches PNL en aval.

Quelle est l'idée centrale de ce document?

Les méthodes de pré-formation basées sur la modélisation du langage masqué sont inefficaces en termes de calcul car elles n'utilisent qu'une petite fraction de jetons pour l'apprentissage.
Les chercheurs proposent une nouvelle tâche de pré-formation appelée détection de jeton remplacé, où:
- certains jetons sont remplacés par des échantillons d'un petit générateur réseau;
- un modèle est pré-formé en tant que discriminateur pour faire la distinction entre les jetons d'origine et les jetons remplacés.
L'approche introduite, appelée ELECTRA (Efficientement Lgagner un Encoder que Classifie Td'accord Rremplacements Acorrectement):
- permet au modèle d'apprendre de tous les jetons d'entrée au lieu du petit sous-ensemble masqué;
- n'est pas contradictoire, malgré la similitude avec le GAN, car le générateur produisant des jetons pour le remplacement est formé avec le maximum de vraisemblance.

Quelle est la principale réalisation?

Démontrer que la tâche discriminante de distinction entre les données réelles et la contestation des échantillons négatifs est plus efficace que les méthodes génératives existantes pour l'apprentissage de la représentation linguistique.
Présentation d'un modèle qui surpasse considérablement les approches de pointe tout en nécessitant moins de calcul préalable à la formation:
- ELECTRA-Small obtient un score GLUE de 79.9 et surpasse un modèle BERT comparativement petit avec un score de 75.1 et un modèle GPT beaucoup plus grand avec un score de 78.8.
- Un modèle ELECTRA qui fonctionne de manière comparable à XLNet et RoBERTa utilise seulement 25% de leur calcul de pré-formation.
- ELECTRA-Large surclasse les modèles alternatifs de pointe sur les benchmarks GLUE et SQuAD tout en nécessitant toujours moins de calcul de pré-formation.

Que pense la communauté de l'IA?

Le papier a été sélectionné pour présentation à ICLR 2020, la principale conférence sur l'apprentissage profond.

Quelles sont les applications commerciales possibles?

En raison de son efficacité de calcul, l'approche ELECTRA peut rendre l'application d'encodeurs de texte pré-formés plus accessible aux professionnels.

Où pouvez-vous obtenir le code d'implémentation?

L'implémentation originale de TensorFlow et les poids pré-entraînés sont publiés le GitHub.

9. DeBERTa: BERT amélioré par décodage avec une attention dissociée, par Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen

Résumé original

Les progrès récents dans les modèles de langage neuronal pré-entraînés ont considérablement amélioré les performances de nombreuses tâches de traitement du langage naturel (PNL). Dans cet article, nous proposons une nouvelle architecture de modèle DeBERTa (Décodage amélioré BERT avec une attention démêlée) qui améliore les modèles BERT et RoBERTa en utilisant deux techniques nouvelles. Le premier est le mécanisme d'attention démêlé, où chaque mot est représenté à l'aide de deux vecteurs qui codent son contenu et sa position, respectivement, et les pondérations d'attention parmi les mots sont calculées à l'aide de matrices démêlées sur leur contenu et leurs positions relatives, respectivement. Deuxièmement, un décodeur de masque amélioré est utilisé pour incorporer des positions absolues dans la couche de décodage afin de prédire les jetons masqués dans le pré-apprentissage du modèle. En outre, une nouvelle méthode d'entraînement contradictoire virtuelle est utilisée pour le réglage fin afin d'améliorer la généralisation des modèles. Nous montrons que ces techniques améliorent considérablement l'efficacité de la pré-formation des modèles et les performances des tâches en aval à la fois de compréhension du langage naturel (NLU) et de génération du langage naturel (NLG). Par rapport à RoBERTa-Large, un modèle DeBERTa formé sur la moitié des données d'entraînement fonctionne toujours mieux sur un large éventail de tâches PNL, obtenant des améliorations sur MNLI de + 0.9% (90.2% contre 91.1%), sur SQuAD v2.0 par + 2.3% (88.4% contre 90.7%) et RACE de + 3.6% (83.2% contre 86.8%). Notamment, nous développons DeBERTa en entraînant une version plus grande qui se compose de 48 couches Transform avec 1.5 milliard de paramètres. L'augmentation significative des performances fait que le modèle unique DeBERTa surpasse pour la première fois les performances humaines sur le benchmark SuperGLUE (Wang et al., 2019a) en termes de score macro-moyen (89.9 contre 89.8), et le modèle d'ensemble DeBERTa se trouve au sommet du Classement SuperGLUE au 6 janvier 2021, surpassant la base de référence humaine par une marge décente (90.3 contre 89.8).

Notre résumé

Les auteurs de Microsoft Research proposent DeBERTa, avec deux améliorations principales par rapport à BERT, à savoir attention démêlée et le décodeur de masque amélioré. DeBERTa a deux vecteurs représentant un jeton/mot en encodant respectivement le contenu et la position relative. Le mécanisme d'auto-attention dans DeBERTa traite l'auto-attention du contenu au contenu, du contenu à la position et également de la position au contenu, tandis que l'auto-attention dans le BERT équivaut à n'avoir que les deux premiers composants. Les auteurs émettent l'hypothèse que l'auto-attention de la position au contenu est également nécessaire pour modéliser de manière exhaustive les positions relatives dans une séquence de jetons. De plus, DeBERTa est équipé d'un décodeur de masque amélioré, où la position absolue du jeton/mot
est également donnée au décodeur avec les informations relatives. Une seule variante à grande échelle de DeBERTa dépasse pour la première fois la référence humaine sur la référence SuperGLUE. L'ensemble DeBERTa est la méthode la plus performante sur SuperGLUE au moment de cette publication.

Quelle est l'idée centrale de ce document?

Attention déstructurée: Dans le BERT d'origine, l'incorporation de contenu et l'incorporation de position sont ajoutées avant l'auto-attention et l'auto-attention est appliquée uniquement sur la sortie des vecteurs de contenu et de position. Les auteurs émettent l'hypothèse que cela ne tient compte que de l'auto-attention du contenu au contenu et de l'auto-attention du contenu à la position et que nous avons également besoin d'auto-attention de la position au contenu pour modéliser complètement les informations de position. DeBERTa a deux vecteurs distincts représentant le contenu et la position et l'auto-attention est calculée entre toutes les paires possibles, c'est-à-dire contenu-contenu, contenu-position, position-contenu et position-position. L'auto-attention position-à-position est trivialement 1 tout le temps et n'a aucune information, donc elle n'est pas calculée.
Décodeur de masque amélioré: Les auteurs émettent l'hypothèse que le modèle a besoin d'informations de position absolue pour comprendre les nuances syntaxiques telles que la caractérisation sujet-objet. Ainsi, DeBERTa reçoit des informations de position absolue ainsi que des informations de position relative. L'incorporation de position absolue est fournie à la dernière couche de décodeur juste avant la couche softmax, qui donne la sortie.

Réglage fin invariant d'échelle: Un algorithme d'entraînement contradictoire virtuel appelé réglage fin invariant d'échelle est utilisé comme méthode de régularisation pour augmenter la généralisation. Les embeddings de mots sont perturbés dans une petite mesure et entraînés pour produire le même résultat que sur des embeddings de mots non perturbés. Les vecteurs d'inclusion de mots sont normalisés en vecteurs stochastiques (où la somme des éléments dans un vecteur est 1) pour être invariants au nombre de paramètres dans le modèle.

Quelle est la principale réalisation?

Comparé à la méthode actuelle de pointe RoBERTa-Large, le modèle DeBERTA entraîné sur la moitié des données d'entraînement permet:
- une amélioration de + 0.9% de la précision sur MNLI (91.1% vs 90.2%),
- une amélioration de + 2.3% de la précision sur SQuAD v2.0 (90.7% vs 88.4%),
- une amélioration de + 3.6% de la précision sur RACE (86.8% vs 83.2%)
Une seule variante à plus grande échelle de DeBERTa surpasse pour la première fois la référence humaine du benchmark SuperGLUE (89.9 contre 89.8). L'ensemble DeBERTa est la méthode la plus performante sur SuperGLUE au moment de cette publication, surpassant la base humaine par une marge décente (90.3 contre 89.8).

Que pense la communauté de l'IA?

Le document a été accepté à l'ICLR 2021, l'une des conférences clés de l'apprentissage profond.

Quels sont les futurs domaines de recherche?

Améliorer le pré-entraînement en introduisant d'autres informations utiles, en plus des positions, avec le framework EMD (Enhanced Mask Decoder).
Une étude plus complète du réglage fin invariant d'échelle (SiFT).

Quelles sont les applications commerciales possibles?

Les représentations contextuelles de la modélisation du langage pré-entraîné pourraient être utilisées dans la recherche, la réponse aux questions, la synthèse, les assistants virtuels et les chatbots, entre autres tâches.

Où pouvez-vous obtenir le code d'implémentation?

L'implémentation de DeBERTa est disponible sur GitHub.

10. PaLM : mise à l'échelle de la modélisation du langage avec Pathways, par Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes , Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev , Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai , Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav P etrov, Noé Fiedel

Résumé original

Il a été démontré que les grands modèles de langage atteignent des performances remarquables dans une variété de tâches en langage naturel en utilisant un apprentissage en quelques coups, ce qui réduit considérablement le nombre d'exemples de formation spécifiques à une tâche nécessaires pour adapter le modèle à une application particulière. Pour approfondir notre compréhension de l'impact de l'échelle sur l'apprentissage en quelques coups, nous avons formé un modèle de langage Transformer de 540 milliards de paramètres, densément activé, que nous appelons Pathways Language Model PaLM. Nous avons formé PaLM sur des puces 6144 TPU v4 à l'aide de Pathways, un nouveau système ML qui permet une formation très efficace sur plusieurs pods TPU. Nous démontrons les avantages continus de la mise à l'échelle en obtenant des résultats d'apprentissage à la pointe de la technologie sur des centaines de références de compréhension et de génération de la langue. Sur un certain nombre de ces tâches, PaLM 540B atteint des performances révolutionnaires, surpassant l'état de l'art affiné sur une suite de tâches de raisonnement en plusieurs étapes et surpassant les performances humaines moyennes sur la référence BIG-bench récemment publiée. Un nombre important de tâches BIG-bench ont montré des améliorations discontinues par rapport à l'échelle du modèle, ce qui signifie que les performances ont fortement augmenté à mesure que nous évoluons vers notre plus grand modèle. PaLM possède également de solides capacités dans les tâches multilingues et la génération de code source, que nous démontrons sur un large éventail de benchmarks. Nous fournissons en outre une analyse complète des biais et de la toxicité, et étudions l'étendue de la mémorisation des données d'entraînement par rapport à l'échelle du modèle. Enfin, nous discutons des considérations éthiques liées aux grands modèles de langage et discutons des stratégies d'atténuation potentielles.

Notre résumé

L'équipe Google Research a beaucoup contribué dans le domaine des modèles de langage pré-entraînés avec leurs modèles BERT, ALBERT et T5. L'une de leurs dernières contributions est la Modèle de langage Pathways (PaLM), un modèle Transformer dense de 540 milliards de paramètres, uniquement décodeur, entraîné avec le système Pathways. L'objectif du système Pathways est d'orchestrer le calcul distribué pour les accélérateurs. Avec son aide, l'équipe a pu former efficacement un seul modèle sur plusieurs pods TPU v4. Les expériences sur des centaines de tâches de compréhension et de génération de langage ont démontré que PaLM atteint des performances de pointe en quelques prises de vue dans la plupart des tâches avec des capacités révolutionnaires démontrées dans la compréhension du langage, la génération de langage, le raisonnement et les tâches liées au code.

Quelle est l'idée centrale de ce document?

L'idée principale de l'article est de mettre à l'échelle la formation d'un modèle de langage de 540 milliards de paramètres avec le système Pathways :
- L'équipe utilisait le parallélisme des données au niveau du pod sur deux pods Cloud TPU v4 tout en utilisant des données standard et un modèle parallèle.
  isme au sein de chaque Pod.
- Ils ont pu adapter la formation à 6144 puces TPU v4, la plus grande configuration de système basée sur TPU utilisée pour la formation à ce jour.
- Le modèle a atteint une efficacité d'entraînement de 57.8 % d'utilisation des FLOP matériels, ce qui, comme le prétendent les auteurs, est l'efficacité d'entraînement la plus élevée jamais atteinte pour les grands modèles de langage à cette échelle.
Les données de formation pour le modèle PaLM comprenaient une combinaison d'ensembles de données en anglais et multilingues contenant des documents Web de haute qualité, des livres, Wikipedia, des conversations et du code GitHub.

Quelle est la principale réalisation?

De nombreuses expériences démontrent que les performances du modèle ont fortement augmenté à mesure que l'équipe évoluait vers son plus grand modèle.
Le PaLM 540B a atteint des performances exceptionnelles sur plusieurs tâches très difficiles :
- Compréhension et génération du langage. Le modèle introduit a dépassé les performances en quelques coups des grands modèles précédents sur 28 des 29 tâches qui incluent des tâches de réponse aux questions, des tâches de cloze et de complétion de phrases, des tâches de compréhension de lecture en contexte, des tâches de raisonnement de bon sens, des tâches SuperGLUE et Suite. Les performances de PaLM sur les tâches BIG-bench ont montré qu'il peut distinguer la cause et l'effet, ainsi que comprendre les combinaisons conceptuelles dans des contextes appropriés.
- Raisonnement. Avec une invite à 8 coups, PaLM résout 58 % des problèmes dans GSM8K, une référence de milliers de questions mathématiques difficiles au niveau de l'école primaire, surpassant le meilleur score précédent de 55 % obtenu en affinant le modèle GPT-3 175B. PaLM démontre également la capacité à générer des explications explicites dans des situations qui nécessitent une combinaison complexe d'inférence logique en plusieurs étapes, de connaissance du monde et de compréhension approfondie du langage.
- Génération de code. PaLM fonctionne à égalité avec le Codex 12B affiné tout en utilisant 50 fois moins de code Python pour la formation, confirmant que les grands modèles de langage transfèrent plus efficacement l'apprentissage des autres langages de programmation et des données de langage naturel.

Quels sont les futurs domaines de recherche?

Combiner les capacités d'évolutivité du système Pathways avec de nouveaux choix architecturaux et programmes de formation.

Quelles sont les applications commerciales possibles?

Comme d'autres modèles de langage pré-formés récemment introduits, PaLM peut être appliqué dans un large éventail de tâches en aval, y compris l'IA conversationnelle, la réponse aux questions, la traduction automatique, la classification de documents, la génération de copie publicitaire, la correction de bogues de code, etc.

Où pouvez-vous obtenir le code d'implémentation?

Jusqu'à présent, il n'y avait pas de version officielle d'implémentation de code pour PaLM, mais il utilise en fait une architecture de modèle Transformer standard, avec quelques personnalisations.
L'implémentation Pytorch de l'architecture Transformer spécifique de PaLM est accessible sur GitHub.

Si vous aimez ces résumés de recherche, vous pourriez également être intéressé par les articles suivants:

Nous vous informerons lorsque nous publierons d'autres articles résumés comme celui-ci.

10 modèles linguistiques de premier plan pour la PNL en 2022

Modèles de langage pré-entraînés importants

1. BERT: Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage, par Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

2. Les modèles de langage sont des apprenants multitâches non supervisés, par Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

3. XLNet: Préentraînement autorégressif généralisé pour la compréhension du langage, par Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

4. RoBERTa: une approche de pré-formation BERT fortement optimisée, par Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

5. ALBERT: Un BERT simplifié pour l'apprentissage auto-supervisé des représentations linguistiques, par Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

6. Explorer les limites de l'apprentissage par transfert avec un transformateur de texte en texte unifié, par Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Quels sont les futurs domaines de recherche?

Que pense la communauté de l'IA?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

8. ELECTRA: les encodeurs de texte de pré-formation comme discriminateurs plutôt que comme générateurs, par Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

9. DeBERTa: BERT amélioré par décodage avec une attention dissociée, par Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen

Résumé original

Notre résumé

Quelle est l'idée centrale de ce document?

Quelle est la principale réalisation?

Que pense la communauté de l'IA?

Quels sont les futurs domaines de recherche?

Quelles sont les applications commerciales possibles?

Où pouvez-vous obtenir le code d'implémentation?

Résumé original