Logo Zéphyrnet

Comment le raisonnement en chaîne de pensée aide les réseaux de neurones à calculer | Magazine Quanta

Date :

Introduction

Votre professeur d'école primaire ne vous a probablement pas montré comment additionner des nombres à 20 chiffres. Mais si vous savez additionner des nombres plus petits, tout ce dont vous avez besoin est du papier, un crayon et un peu de patience. Commencez par ceux-là et progressez vers la gauche étape par étape, et bientôt vous empilerez facilement des quintillions.

Des problèmes comme celui-ci sont faciles pour les humains, mais seulement si nous les abordons de la bonne manière. « La façon dont nous, les humains, résolvons ces problèmes ne consiste pas à « le regarder fixement puis à écrire la réponse » », a déclaré Eran Malach, chercheur en apprentissage automatique à l'Université Harvard. « Nous parcourons réellement les étapes. »

Cette idée a inspiré les chercheurs qui étudient les grands modèles de langage qui alimentent les chatbots comme ChatGPT. Bien que ces systèmes puissent réussir des questions impliquant quelques étapes arithmétiques, ils échouent souvent à des problèmes impliquant de nombreuses étapes, comme le calcul de la somme de deux grands nombres. Mais en 2022, une équipe de chercheurs de Google montré que demander aux modèles de langage de générer des solutions étape par étape permettait aux modèles de résoudre des problèmes qui semblaient auparavant hors de leur portée. Leur technique, appelée chaîne de pensée, s'est rapidement répandue, alors même que les chercheurs luttaient pour comprendre ce qui la faisait fonctionner.

Aujourd’hui, plusieurs équipes ont exploré la puissance du raisonnement en chaîne de pensée en utilisant des techniques issues d’une branche obscure de l’informatique théorique appelée théorie de la complexité computationnelle. Il s'agit du dernier chapitre d'une ligne de recherche qui utilise la théorie de la complexité pour étudier les capacités et les limites intrinsèques des modèles de langage. Ces efforts clarifient les domaines dans lesquels nous devrions nous attendre à ce que les modèles échouent et pourraient orienter vers de nouvelles approches pour les construire.

"Ils suppriment une partie de la magie", a déclaré Dimitris Papailiopoulos, chercheur en apprentissage automatique à l'Université du Wisconsin, Madison. "C'est une bonne chose."

Transformateurs de formation

Les grands modèles de langage sont construits autour de structures mathématiques appelées réseaux de neurones artificiels. Les nombreux « neurones » à l’intérieur de ces réseaux effectuent des opérations mathématiques simples sur de longues chaînes de nombres représentant des mots individuels, transmuant chaque mot passant à travers le réseau en un autre. Les détails de cette alchimie mathématique dépendent d'un autre ensemble de nombres appelés paramètres du réseau, qui quantifient la force des connexions entre les neurones.

Pour entraîner un modèle de langage afin de produire des résultats cohérents, les chercheurs commencent généralement avec un réseau de neurones dont les paramètres ont tous des valeurs aléatoires, puis lui alimentent des tonnes de données provenant d'Internet. Chaque fois que le modèle voit un nouveau bloc de texte, il essaie de prédire chaque mot tour à tour : il devine le deuxième mot en fonction du premier, le troisième en fonction des deux premiers, et ainsi de suite. Il compare chaque prédiction au texte réel, puis ajuste ses paramètres pour réduire la différence. Chaque ajustement ne modifie que légèrement les prédictions du modèle, mais d'une manière ou d'une autre, leur effet collectif permet à un modèle de répondre de manière cohérente à des entrées qu'il n'a jamais vues.

Les chercheurs entraînent les réseaux de neurones à traiter le langage depuis 20 ans. Mais les travaux ont véritablement décollé en 2017, lorsque des chercheurs de Google ont présenté une nouveau type de réseau appelé transformateur.

"Cela a été proposé il y a sept ans, ce qui semble être de la préhistoire", a déclaré Pablo Barceló, chercheur en apprentissage automatique à l'Université pontificale catholique du Chili.

Ce qui rend les transformateurs si transformateurs, c'est qu'il est facile de les faire évoluer (pour augmenter le nombre de paramètres et la quantité de données de formation) sans rendre la formation d'un coût prohibitif. Avant les transformateurs, les réseaux de neurones comptaient tout au plus quelques centaines de millions de paramètres ; aujourd’hui, les plus grands modèles basés sur transformateur en comptent plus d’un billion. Une grande partie de l’amélioration des performances des modèles de langage au cours des cinq dernières années provient d’une simple mise à l’échelle.

Les transformateurs ont rendu cela possible en utilisant des structures mathématiques spéciales appelées têtes d'attention, qui leur donnent une sorte de vue plongeante sur le texte qu'ils lisent. Lorsqu'un transformateur lit un nouveau bloc de texte, ses têtes d'attention analysent rapidement le tout et identifient les connexions pertinentes entre les mots – notant peut-être que les quatrième et huitième mots sont probablement les plus utiles pour prédire le 10ème. Ensuite, les têtes d’attention transmettent les mots à un énorme réseau de neurones appelé réseau feedforward, qui effectue les calculs intensifs nécessaires pour générer les prédictions qui l’aident à apprendre.

Les vrais transformateurs ont plusieurs couches de têtes d'attention séparées par des réseaux de rétroaction et ne crachent des prédictions qu'après la dernière couche. Mais à chaque couche, les responsables de l'attention ont déjà identifié le contexte le plus pertinent pour chaque mot, de sorte que l'étape de rétroaction intensive en calcul peut se produire simultanément pour chaque mot du texte. Cela accélère le processus de formation, permettant de former les transformateurs sur des ensembles de données de plus en plus volumineux. Plus important encore, cela permet aux chercheurs de répartir l’énorme charge de calcul nécessaire à la formation d’un énorme réseau neuronal sur de nombreux processeurs travaillant en tandem.

Pour tirer le meilleur parti d’ensembles de données massifs, « vous devez créer des modèles très volumineux », a déclaré David Tchang, chercheur en apprentissage automatique à l'Université de Notre Dame. "Il ne sera tout simplement pas pratique de les former à moins que ce ne soit mis en parallèle."

Cependant, la structure parallèle qui facilite la formation des transformateurs n'aide pas après la formation : à ce stade, il n'est pas nécessaire de prédire les mots qui existent déjà. En fonctionnement normal, les transformateurs produisent un mot à la fois, en replaçant chaque sortie sur l'entrée avant de générer le mot suivant, mais ils sont toujours limités à une architecture optimisée pour le traitement parallèle.

À mesure que les modèles basés sur des transformateurs se développaient et que certaines tâches continuaient de leur poser problème, certains chercheurs ont commencé à se demander si la poussée vers des modèles plus parallélisables avait eu un coût. Existe-t-il un moyen de comprendre théoriquement le comportement des transformateurs ?

La complexité des transformateurs

Les études théoriques des réseaux de neurones se heurtent à de nombreuses difficultés, notamment lorsqu'elles tentent de prendre en compte la formation. Les réseaux de neurones utilisent une procédure bien connue pour ajuster leurs paramètres à chaque étape du processus de formation. Mais il peut être difficile de comprendre pourquoi cette procédure simple converge vers un bon ensemble de paramètres.

Plutôt que de considérer ce qui se passe lors de la formation, certains chercheurs étudient les capacités intrinsèques des transformateurs en imaginant qu'il est possible d'ajuster leurs paramètres à n'importe quelle valeur arbitraire. Cela revient à traiter un transformateur comme un type particulier d’ordinateur programmable.

« Vous possédez un appareil informatique et vous voulez savoir : « Eh bien, que peut-il faire ? Quels types de fonctions peut-il calculer ? » », a déclaré Chiang.

Telles sont les questions centrales de l’étude formelle du calcul. Ce domaine remonte à 1936, lorsque Alan Turing a imaginé pour la première fois un appareil fantaisiste, maintenant appelée machine de Turing, capable d'effectuer n'importe quel calcul en lisant et en écrivant des symboles sur une bande infinie. Les théoriciens de la complexité informatique s'appuieront plus tard sur les travaux de Turing pour prouver que les problèmes informatiques se répartissent naturellement en différentes catégories. classes de complexité définis par les ressources nécessaires pour les résoudre.

En 2019, Barceló et deux autres chercheurs prouvé qu'une version idéalisée d'un transformateur avec un nombre fixe de paramètres pourrait être tout aussi puissante qu'une machine de Turing. Si vous configurez un transformateur pour qu'il réinjecte à plusieurs reprises sa sortie en tant qu'entrée et que vous définissez les paramètres sur les valeurs appropriées pour le problème spécifique que vous souhaitez résoudre, il finira par cracher la bonne réponse.

Ce résultat était un point de départ, mais il reposait sur des hypothèses irréalistes qui surestimeraient probablement la puissance des transformateurs. Au cours des années qui ont suivi, les chercheurs ont travaillé pour développer des cadres théoriques plus réalistes.

Un tel effort a commencé en 2021, lorsque Guillaume Merrill, aujourd'hui étudiant diplômé à l'Université de New York, quittait une bourse de deux ans à l'Allen Institute for Artificial Intelligence de Seattle. Là-bas, il avait analysé d'autres types de réseaux neuronaux en utilisant des techniques qui semblaient mal adaptées à l'architecture parallèle des transformateurs. Peu avant de partir, il a entamé une conversation avec un chercheur de l'Allen Institute for AI. Ashish Sabharwal, qui avait étudié la théorie de la complexité avant de se lancer dans la recherche sur l'IA. Ils ont commencé à soupçonner que la théorie de la complexité pourrait les aider à comprendre les limites des transformateurs.

« Cela semblait être un modèle simple ; il doit y avoir certaines limites que l'on peut simplement définir », a déclaré Sabharwal.

Les deux hommes ont analysé les transformateurs en utilisant une branche de la théorie de la complexité informatique, appelée complexité des circuits, qui est souvent utilisée pour étudier le calcul parallèle et a récemment été appliqué aux versions simplifiées des transformateurs. Au cours de l’année suivante, ils ont affiné plusieurs des hypothèses irréalistes des travaux précédents. Pour étudier comment la structure parallèle des transformateurs pourrait limiter leurs capacités, les deux hommes ont considéré le cas où les transformateurs ne réinjectaient pas leur sortie dans leur entrée. Au lieu de cela, leur première sortie devrait être la réponse finale. Ils prouvé que les transformateurs de ce cadre théorique ne pouvaient résoudre aucun problème de calcul se situant en dehors d'une classe de complexité spécifique. Et de nombreux problèmes mathématiques, y compris des problèmes relativement simples comme la résolution d’équations linéaires, se situent en dehors de cette classe.

Fondamentalement, ils ont montré que le parallélisme avait un coût – du moins lorsque les transformateurs devaient cracher une réponse immédiatement. "Les transformateurs sont assez faibles si la façon dont vous les utilisez consiste à donner une contribution et à attendre simplement une réponse immédiate", a déclaré Merrill.

Expériences de pensée

Les résultats de Merrill et Sabharwal ont soulevé une question naturelle : dans quelle mesure les transformateurs deviennent-ils plus puissants lorsqu'ils sont autorisés à recycler leurs produits ? Barceló et ses co-auteurs avaient étudié ce cas dans leur analyse de 2019 des transformateurs idéalisés, mais avec des hypothèses plus réalistes, la question restait ouverte. Et dans les années qui ont suivi, les chercheurs ont découvert une chaîne de pensée, donnant à la question une nouvelle pertinence.

Merrill et Sabharwal savaient que leur approche purement mathématique ne pouvait pas capturer tous les aspects du raisonnement en chaîne de pensée dans des modèles de langage réels, où le libellé de l'invite peut être très important. Mais quelle que soit la manière dont une invite est formulée, tant qu'elle amène un modèle de langage à générer des solutions étape par étape, le modèle peut en principe réutiliser les résultats des étapes intermédiaires lors des passages ultérieurs dans le transformateur. Cela pourrait permettre d’échapper aux limites du calcul parallèle.

Entre-temps, une équipe de l’Université de Pékin avait réfléchi dans le même sens et ses résultats préliminaires étaient positifs. Dans un article de mai 2023, ils ont identifié certains problèmes mathématiques qui devraient être impossibles pour les transformateurs ordinaires dans le cadre de Merrill et Sabharwal, et montré que des étapes intermédiaires ont permis aux transformateurs de résoudre ces problèmes.

En octobre, Merrill et Sabharwal ont poursuivi leurs travaux antérieurs avec un étude théorique détaillée de la puissance de calcul de la chaîne de pensée. Ils ont quantifié comment cette puissance de calcul supplémentaire dépend du nombre d’étapes intermédiaires qu’un transformateur est autorisé à utiliser avant de devoir cracher une réponse finale. En général, les chercheurs s’attendent à ce que le nombre approprié d’étapes intermédiaires pour résoudre un problème dépende de l’ampleur de la contribution au problème. Par exemple, la stratégie la plus simple pour additionner deux nombres à 20 chiffres nécessite deux fois plus d’étapes d’addition intermédiaires que la même approche pour additionner deux nombres à 10 chiffres.

Des exemples comme celui-ci suggèrent que les transformateurs ne gagneraient pas grand-chose à utiliser seulement quelques étapes intermédiaires. En effet, Merrill et Sabharwal ont prouvé que la chaîne de pensée ne commence vraiment à être utile que lorsque le nombre d’étapes intermédiaires augmente proportionnellement à la taille de l’entrée, et de nombreux problèmes nécessitent que le nombre d’étapes intermédiaires augmente encore beaucoup plus.

La minutie des résultats a impressionné les chercheurs. "Ils ont vraiment cerné cela", a déclaré Daniel Hsu, chercheur en apprentissage automatique à l'Université de Columbia.

Les travaux récents de Merrill et Sabharwal indiquent que la chaîne de pensée n'est pas une panacée : en principe, elle peut aider les transformateurs à résoudre des problèmes plus difficiles, mais uniquement au prix de beaucoup d'efforts de calcul.

"Nous sommes intéressés par différentes manières de contourner les limites des transformateurs en une seule étape", a déclaré Merrill. « La chaîne de pensée est une solution, mais cet article montre que ce n’est peut-être pas la manière la plus économique. »

Retour à la réalité

Néanmoins, les chercheurs préviennent que ce type d’analyse théorique ne peut pas en dire beaucoup sur les modèles de langage réels. Des résultats positifs – des preuves que les transformateurs peuvent en principe résoudre certains problèmes – n'impliquent pas qu'un modèle de langage apprendra réellement ces solutions au cours de la formation.

Et même les résultats qui abordent les limites des transformateurs comportent des réserves : ils indiquent qu’aucun transformateur ne peut résoudre parfaitement certains problèmes dans tous les cas. Bien sûr, c'est une barre assez haute. "Il pourrait y avoir des cas particuliers de problème qu'il pourrait très bien gérer", a déclaré Hsu.

Malgré ces réserves, les nouveaux travaux proposent un modèle pour analyser différents types d’architectures de réseaux neuronaux qui pourraient éventuellement remplacer les transformateurs. Si une analyse de la théorie de la complexité suggère que certains types de réseaux sont plus puissants que d’autres, cela prouverait que ces réseaux pourraient également mieux s’en sortir dans le monde réel.

Chiang a également souligné que la recherche sur les limites des transformateurs est d'autant plus précieuse que les modèles de langage sont de plus en plus utilisés dans un large éventail d'applications du monde réel, ce qui permet de surestimer facilement leurs capacités.

"Il y a en fait beaucoup de choses qu'ils ne font pas très bien, et nous devons être très, très conscients de leurs limites", a déclaré Chiang. "C'est pourquoi ce genre de travail est vraiment important."

spot_img

Dernières informations

spot_img