Logo Zéphyrnet

Une nouvelle puce élargit les possibilités de l'IA

Date :

Introduction

Les algorithmes d'intelligence artificielle ne peuvent pas continuer à se développer à leur rythme actuel. Des algorithmes comme les réseaux de neurones profonds – qui sont vaguement inspirés par le cerveau, avec plusieurs couches de neurones artificiels liés les uns aux autres via des valeurs numériques appelées poids – grossissent chaque année. Mais de nos jours, les améliorations matérielles ne suivent plus le rythme de l'énorme quantité de mémoire et de capacité de traitement requise pour exécuter ces algorithmes massifs. Bientôt, la taille des algorithmes d'IA pourrait se heurter à un mur.

Et même si nous pouvions continuer à faire évoluer le matériel pour répondre aux exigences de l'IA, il y a un autre problème : les faire fonctionner sur des ordinateurs traditionnels gaspille une énorme quantité d'énergie. Les émissions de carbone élevées générées par l'exécution de grands algorithmes d'IA sont déjà nocives pour l'environnement, et cela ne fera qu'empirer à mesure que les algorithmes deviendront de plus en plus gigantesques.

Une solution, appelée informatique neuromorphique, s'inspire des cerveaux biologiques pour créer des conceptions économes en énergie. Malheureusement, bien que ces puces puissent dépasser les ordinateurs numériques en matière de conservation de l'énergie, elles n'ont pas la puissance de calcul nécessaire pour faire fonctionner un réseau neuronal profond important. Cela les a rendus faciles à ignorer pour les chercheurs en IA.

Cela a finalement changé en août, lorsque Weier Wan, H.-S. Philippe Wang, Gert Cauwenberghs et leurs collègues a révélé une nouvelle puce neuromorphique appelé NeuRRAM qui comprend 3 millions de cellules de mémoire et des milliers de neurones intégrés dans son matériel pour exécuter des algorithmes. Il utilise un type de mémoire relativement nouveau appelé RAM résistive ou RRAM. Contrairement aux puces RRAM précédentes, NeuRRAM est programmée pour fonctionner de manière analogique afin d'économiser plus d'énergie et d'espace. Alors que la mémoire numérique est binaire - stockant un 1 ou un 0 - les cellules de mémoire analogiques dans la puce NeuRRAM peuvent chacune stocker plusieurs valeurs le long d'une plage entièrement continue. Cela permet à la puce de stocker plus d'informations provenant d'algorithmes d'IA massifs dans le même espace de puce.

En conséquence, la nouvelle puce peut fonctionner aussi bien que les ordinateurs numériques sur des tâches d'IA complexes telles que la reconnaissance d'images et de la parole, et les auteurs affirment qu'elle est jusqu'à 1,000 XNUMX fois plus économe en énergie, ouvrant la possibilité à de minuscules puces d'exécuter des algorithmes de plus en plus compliqués. dans de petits appareils auparavant inadaptés à l'IA comme les montres et les téléphones intelligents.

Les chercheurs non impliqués dans les travaux ont été profondément impressionnés par les résultats. "Ce document est assez unique", a déclaré Zhongrui Wang, un chercheur RRAM de longue date à l'Université de Hong Kong. "Il apporte des contributions à différents niveaux - au niveau de l'appareil, au niveau de l'architecture du circuit et au niveau de l'algorithme."

Créer de nouveaux souvenirs

Dans les ordinateurs numériques, les énormes quantités d'énergie gaspillées lors de l'exécution d'algorithmes d'IA sont causées par un défaut de conception simple et omniprésent qui rend chaque calcul inefficace. En règle générale, la mémoire d'un ordinateur - qui contient les données et les valeurs numériques qu'il traite pendant le calcul - est placée sur la carte mère, loin du processeur, où le calcul a lieu.

Pour les informations qui transitent par le processeur, "c'est un peu comme si vous passiez huit heures sur le trajet, mais vous faites deux heures de travail", a déclaré Wan, un informaticien anciennement à l'Université de Stanford qui a récemment rejoint la startup AI Aizip.

Introduction

Résoudre ce problème avec de nouvelles puces tout-en-un qui placent la mémoire et le calcul au même endroit semble simple. C'est également plus proche de la façon dont notre cerveau traite probablement l'information, car de nombreux neuroscientifiques pensent que le calcul se produit au sein de populations de neurones, tandis que les souvenirs se forment lorsque les synapses entre les neurones renforcent ou affaiblissent leurs connexions. Mais la création de tels dispositifs s'est avérée difficile, car les formes de mémoire actuelles sont incompatibles avec la technologie des processeurs.

Il y a des décennies, les informaticiens ont développé les matériaux pour créer de nouvelles puces qui effectuent des calculs là où la mémoire est stockée – une technologie connue sous le nom de calcul en mémoire. Mais avec les ordinateurs numériques traditionnels qui fonctionnent si bien, ces idées ont été ignorées pendant des décennies.

"Ce travail, comme la plupart des travaux scientifiques, a été un peu oublié", a déclaré Wong, professeur à Stanford.

En effet, la premier appareil de ce type remonte au moins à 1964, lorsque les ingénieurs électriciens de Stanford ont découvert qu'ils pouvaient manipuler certains matériaux, appelés oxydes métalliques, pour activer et désactiver leur capacité à conduire l'électricité. C'est important car la capacité d'un matériau à basculer entre deux états constitue l'épine dorsale du stockage de mémoire traditionnel. Typiquement, dans une mémoire numérique, un état de haute tension correspond à un 1, et une basse tension à un 0.

Pour qu'un dispositif RRAM change d'état, vous appliquez une tension sur des électrodes métalliques reliées aux deux extrémités de l'oxyde métallique. Normalement, les oxydes métalliques sont des isolants, ce qui signifie qu'ils ne conduisent pas l'électricité. Mais avec une tension suffisante, le courant s'accumule, poussant finalement à travers les points faibles du matériau et se frayant un chemin vers l'électrode de l'autre côté. Une fois que le courant a traversé, il peut circuler librement le long de ce chemin.

Wong compare ce processus à la foudre : lorsqu'une charge suffisante s'accumule à l'intérieur d'un nuage, il trouve rapidement un chemin à faible résistance et la foudre frappe. Mais contrairement à la foudre, dont le chemin disparaît, le chemin à travers l'oxyde métallique reste, ce qui signifie qu'il reste conducteur indéfiniment. Et il est possible d'effacer le chemin conducteur en appliquant une autre tension au matériau. Ainsi, les chercheurs peuvent basculer une RRAM entre deux états et les utiliser pour stocker de la mémoire numérique.

Les chercheurs du milieu du siècle n'ont pas reconnu le potentiel de l'informatique économe en énergie, et ils n'en avaient pas encore besoin avec les algorithmes plus petits avec lesquels ils travaillaient. Il a fallu attendre le début des années 2000, avec la découverte de nouveaux oxydes métalliques, pour que les chercheurs se rendent compte des possibilités.

Wong, qui travaillait chez IBM à l'époque, se souvient qu'un collègue primé travaillant sur la RRAM a admis qu'il ne comprenait pas entièrement la physique impliquée. "S'il ne le comprend pas", se souvient Wong, "peut-être que je ne devrais pas essayer de le comprendre."

Mais en 2004, des chercheurs de Samsung Electronics ont annoncé avoir mémoire RRAM intégrée avec succès construit sur une puce informatique traditionnelle, suggérant qu'une puce de calcul en mémoire pourrait enfin être possible. Wong décida d'essayer au moins.

Puces de calcul en mémoire pour l'IA

 Pendant plus d'une décennie, des chercheurs comme Wong ont travaillé pour développer la technologie RRAM au point où elle pourrait gérer de manière fiable des tâches informatiques de grande puissance. Vers 2015, les informaticiens ont commencé à reconnaître l'énorme potentiel de ces appareils économes en énergie pour les grands algorithmes d'IA, qui commençaient à décoller. Cette année-là, des scientifiques de l'Université de Californie à Santa Barbara montré que les périphériques RRAM pourraient faire plus que simplement stocker de la mémoire d'une nouvelle manière. Ils pourraient exécuter eux-mêmes des tâches informatiques de base, y compris la grande majorité des calculs qui ont lieu dans les neurones artificiels d'un réseau de neurones, qui sont de simples tâches de multiplication matricielle.

Dans la puce NeuRRAM, les neurones en silicium sont intégrés au matériel et les cellules de mémoire RRAM stockent les poids - les valeurs représentant la force des connexions entre les neurones. Et parce que les cellules de mémoire NeuRRAM sont analogiques, les poids qu'elles stockent représentent la gamme complète d'états de résistance qui se produisent lorsque l'appareil passe d'un état de faible résistance à un état de haute résistance. Cela permet une efficacité énergétique encore plus élevée que celle que la mémoire RRAM numérique peut atteindre, car la puce peut exécuter de nombreux calculs matriciels en parallèle, plutôt que les uns après les autres, comme dans les versions de traitement numérique.

Mais comme le traitement analogique a encore des décennies de retard sur le traitement numérique, il reste encore de nombreux problèmes à résoudre. La première est que les puces RRAM analogiques doivent être exceptionnellement précises car les imperfections de la puce physique peuvent introduire de la variabilité et du bruit. (Pour les puces traditionnelles, avec seulement deux états, ces imperfections n'ont pas autant d'importance.) Cela rend beaucoup plus difficile pour les périphériques RRAM analogiques d'exécuter des algorithmes AI, étant donné que la précision de, par exemple, la reconnaissance d'une image souffrira si le l'état conducteur du périphérique RRAM n'est pas exactement le même à chaque fois.

"Quand nous regardons un chemin d'éclairage, chaque fois c'est différent", a déclaré Wong. "Donc, à la suite de cela, la RRAM présente un certain degré de stochasticité - chaque fois que vous les programmez, c'est légèrement différent." Wong et ses collègues ont prouvé que les dispositifs RRAM peuvent stocker des poids d'IA continus et être toujours aussi précis que les ordinateurs numériques si les algorithmes sont formés pour s'habituer au bruit qu'ils rencontrent sur la puce, une avancée qui leur a permis de produire la puce NeuRRAM.

Introduction

Un autre problème majeur qu'ils ont dû résoudre concernait la flexibilité nécessaire pour prendre en charge divers réseaux de neurones. Dans le passé, les concepteurs de puces devaient aligner les minuscules dispositifs RRAM dans une zone à côté de plus grands neurones au silicium. Les dispositifs RRAM et les neurones étaient câblés sans programmabilité, de sorte que le calcul ne pouvait être effectué que dans une seule direction. Pour prendre en charge les réseaux de neurones avec un calcul bidirectionnel, des fils et des circuits supplémentaires étaient nécessaires, gonflant les besoins en énergie et en espace.

L'équipe de Wong a donc conçu une nouvelle architecture de puce où les dispositifs de mémoire RRAM et les neurones au silicium étaient mélangés. Cette petite modification de la conception a réduit la surface totale et économisé de l'énergie.

"Je pensais que [l'arrangement] était vraiment magnifique", a déclaré Melika Payvand, chercheur en neuromorphologie à l'Ecole polytechnique fédérale de Zurich. "Je considère définitivement qu'il s'agit d'un travail révolutionnaire."

Pendant plusieurs années, l'équipe de Wong a travaillé avec des collaborateurs pour concevoir, fabriquer, tester, calibrer et exécuter des algorithmes d'IA sur la puce NeuRRAM. Ils ont envisagé d'utiliser d'autres types de mémoire émergents qui peuvent également être utilisés dans une puce de calcul en mémoire, mais la RRAM avait un avantage en raison de ses avantages dans la programmation analogique et parce qu'elle était relativement facile à intégrer aux matériaux informatiques traditionnels.

Leurs résultats récents représentent la première puce RRAM capable d'exécuter des algorithmes d'IA aussi volumineux et complexes - un exploit qui n'était auparavant possible que dans des simulations théoriques. "En ce qui concerne le vrai silicium, cette capacité manquait", a déclaré Anup Das, informaticien à l'université de Drexel. "Ce travail est la première démonstration."

"Les systèmes d'IA numérique sont flexibles et précis, mais des ordres de grandeur moins efficaces", a déclaré Cauwenberghs. Maintenant, a déclaré Cauwenberghs, leur puce RRAM analogique flexible, précise et économe en énergie a « comblé l'écart pour la première fois ».

Mise à l'échelle

La conception de l'équipe maintient la puce NeuRRAM minuscule - juste la taille d'un ongle - tout en comprimant 3 millions de dispositifs de mémoire RRAM qui peuvent servir de processeurs analogiques. Et bien qu'elle puisse exécuter des réseaux de neurones au moins aussi bien que les ordinateurs numériques, la puce peut également (et pour la première fois) exécuter des algorithmes qui effectuent des calculs dans différentes directions. Leur puce peut entrer une tension dans les lignes de la matrice RRAM et lire les sorties des colonnes comme c'est le cas pour les puces RRAM, mais elle peut également le faire en arrière des colonnes aux lignes, de sorte qu'elle peut être utilisée dans les réseaux de neurones qui fonctionnent. avec des données circulant dans des directions différentes.

Comme pour la technologie RRAM elle-même, cela a longtemps été possible, mais personne n'a pensé à le faire. « Pourquoi n'y avons-nous pas pensé avant ? demanda Payvand. « Avec le recul, je ne sais pas.

"Cela ouvre en fait beaucoup d'autres opportunités", a déclaré Das. À titre d'exemple, il a mentionné la capacité d'un système simple à exécuter les énormes algorithmes nécessaires aux simulations physiques multidimensionnelles ou aux voitures autonomes.

Pourtant, la taille est un problème. Les plus grands réseaux de neurones contiennent désormais des milliards de poids, et non les millions contenus dans les nouvelles puces. Wong prévoit d'évoluer en empilant plusieurs puces NeuRRAM les unes sur les autres.

Il sera tout aussi important de maintenir les coûts énergétiques bas dans les futurs appareils, ou de les réduire encore davantage. Une façon d'y arriver est de copier le cerveau encore plus près pour adopter le signal de communication utilisé entre les vrais neurones : le pic électrique. C'est un signal envoyé d'un neurone à l'autre lorsque la différence de tension entre l'intérieur et l'extérieur de la cellule atteint un seuil critique.

"Il y a de grands défis là-bas", a déclaré Tony Kenyon, chercheur en nanotechnologie à l'University College de Londres. "Mais nous pourrions toujours vouloir aller dans cette direction, car... il y a de fortes chances que vous ayez une plus grande efficacité énergétique si vous utilisez des pics très clairsemés." Cependant, pour exécuter des algorithmes qui augmentent sur la puce NeuRRAM actuelle, il faudrait probablement une architecture totalement différente, a noté Kenyon.

Pour l'instant, l'efficacité énergétique que l'équipe a obtenue en exécutant de grands algorithmes d'IA sur la puce NeuRRAM a créé un nouvel espoir que les technologies de mémoire pourraient représenter l'avenir de l'informatique avec l'IA. Peut-être qu'un jour nous pourrons même faire correspondre les 86 milliards de neurones du cerveau humain et les trillions de synapses qui les relient sans manquer d'énergie.

spot_img

Dernières informations

spot_img