Zephyrnet-Logo

Der KI-Chip fügt dem resistiven RAM künstliche Neuronen zur Verwendung in Wearables und Drohnen hinzu

Datum:

Ein neu veröffentlichtes Forschungspapier beschreibt einen Compute-in-Memory (CIM)-Chip, der künstliche Neuronen mit resistivem RAM (RRAM) kombiniert, sodass die KI-Modellgewichte auf demselben Chip gespeichert und verarbeitet werden können.

Ein Compute-in-Memory-Chip basierend auf einem resistiven Direktzugriffsspeicher (zum Vergrößern anklicken). Bild: Wan et al

Die Forscher hinter dem Design behaupten, dass es für Edge-Anwendungen effizienter wäre, da es die Datenbewegung zwischen separaten Rechen- und Speicherblöcken eliminiert.

Edge-Computing und künstliche Intelligenz sind zumindest in naher Zukunft auf einem rasanten Wachstumskurs laut dem Analystenhaus IDC. Einige Szenarien kombinieren sie miteinander, da Edge-Bereitstellungen möglicherweise hinsichtlich Leistung und Konnektivität eingeschränkt sind, aber dennoch erhebliche Datenmengen analysieren und nahezu in Echtzeit auf Ereignisse reagieren müssen, sodass ein im Gerät „lebendes“ KI-Modell die optimale Lösung darstellt .

Vor diesem Hintergrund hat eine Gruppe von Forschern einen Chip entwickelt, den sie NeuRRAM nennt, weil er künstliche Neuronen mit RRAM in einer neuartigen Architektur kombiniert. Das Ziel des Projekts war es, ein Design zu liefern, das gleichzeitig eine hohe Energieeffizienz sowie die Vielseitigkeit zur Unterstützung verschiedener KI-Modelle und eine vergleichbare Genauigkeit zur Ausführung desselben Modells in Software bieten kann.

Das Projekt startete zunächst als Teil eines Projekts der Nature Science Foundation mit dem Namen „Expeditions in Computing“. Dieses Projekt brachte eine Gruppe von Forschern aus verschiedenen Institutionen mit unterschiedlichem Hintergrund zusammen, darunter einige von Stanford und UCSD, sowie Forscher der Tsinghua-Universität in China, die Experten für die Herstellung von RRAM-Geräten sind.

Energieeffizienz: KI-Inferenz auf dem batteriebetriebenen Gizmo

Laut Weier Wan, einem graduierten Forscher an der Stanford University und einer der Autoren des Papiers, gestern in Nature veröffentlicht, wurde NeuRRAM als KI-Chip entwickelt, der die Energieeffizienz der KI-Inferenz erheblich verbessert, wodurch komplexe KI-Funktionen direkt in batteriebetriebenen Edge-Geräten wie intelligenten Wearables, Drohnen und industriellen IoT-Sensoren realisiert werden können .

„In heutigen KI-Chips finden Datenverarbeitung und Datenspeicherung an getrennten Orten statt – Recheneinheit und Speichereinheit. Die häufige Datenbewegung zwischen diesen Einheiten verbraucht die meiste Energie und wird zum Engpass für die Realisierung von stromsparenden KI-Prozessoren für Edge-Geräte“, sagte er.

Um dies zu beheben, implementiert der NeuRRAM-Chip ein „Compute-in-Memory“-Modell, bei dem die Verarbeitung direkt im Speicher erfolgt. Es verwendet auch resistiven RAM (RRAM), einen Speichertyp, der so schnell wie statischer RAM ist, aber nicht flüchtig ist, sodass er KI-Modellgewichte speichern kann. Ein Hauptmerkmal von RRAM-Zellen besteht darin, dass neuronale Gewichte in Speicherzellen als unterschiedliche Leitfähigkeitspegel gespeichert, über Digital-Analog-Wandler (DACs) codiert und dem Speicherarray zugeführt werden können.

Dies ist keine Software-Simulation, es ist Hardware

Es gab frühere Studien zu CIM-Architekturen, aber dies ist die erste, die eine breite Palette von KI-Anwendungen in Hardware statt in Softwaresimulation demonstriert, während sie energieeffizienter ist und die Algorithmen genau ausführen kann, was keine der vorherigen Studien war laut Wan gleichzeitig zeigen konnten.

Das NeuRRAM besteht aus 48 CIM-Kernen mit insgesamt 3 Millionen RRAM-Zellen. Jeder Kern wird als transponierbares neurosynaptisches Array (TNSA) beschrieben, das aus einem Raster von 256 × 256 RRAM-Zellen und 256 künstlichen CMOS-Neuronenschaltungen besteht, die Analog-Digital-Wandler (ADCs) und Aktivierungsfunktionen implementieren.

Dem Papier zufolge wurde die TNSA-Architektur entwickelt, um eine flexible Steuerung der Richtung von Datenflüssen zu ermöglichen, was für die Unterstützung einer Vielzahl von KI-Modellen mit unterschiedlichen Datenflussmustern von entscheidender Bedeutung ist.

Beispielsweise fließen in Convolutional Neural Networks (CNNs), die bei visuellen Aufgaben üblich sind, Daten in einer einzigen Richtung durch Schichten, um Datendarstellungen auf verschiedenen Abstraktionsebenen zu generieren, während in einigen anderen Modellen probabilistisches Sampling zwischen Schichten hin und her durchgeführt wird bis das Netzwerk zu einem Zustand mit hoher Wahrscheinlichkeit konvergiert.

Andere Designs, die CIM mit RRAM kombiniert haben, waren jedoch auf den Betrieb in einer einzigen Richtung beschränkt, typischerweise durch Festverdrahtung von Zeilen und Spalten des RRAM-Crossbar-Arrays mit dedizierten Schaltungen an der Peripherie, um Eingänge zu treiben und Ausgänge zu messen, heißt es in dem Papier.

So funktioniert's

Das Geheimnis der Rekonfigurierbarkeit des NeuRRAM besteht darin, dass es die CMOS-Neuronenschaltkreise auf die RRAM-Zellen verteilt und sie entlang der Länge von Zeilen und Spalten verbindet.

Weier Wan

pic: Wanet al

Jeder TNSA ist in eine Anzahl von Corelets zerlegt, von denen jedes aus 16 × 16 RRAM-Zellen und einer Neuronenschaltung besteht. Die Corelets sind durch gemeinsam genutzte Bitleitungen (BLs) und Wortleitungen (WLs) entlang der horizontalen Richtung und Sourceleitungen (SLs) entlang der vertikalen Richtung verbunden.

Die Neuronenschaltung ist über Schalter mit einer BL und einer SL von jeweils 16 verbunden, die durch das Corelet laufen, und ist verantwortlich für die Integration von Eingaben von allen 256 RRAMs, die mit derselben BL oder SL verbunden sind.

Jede Neuronalschaltung kann ihre BL- und SL-Schalter für Eingabe und Ausgabe verwenden. Dies bedeutet, dass er die analoge Matrix-Vektor-Multiplikation (MVM) von einer RRAM-Zelle empfangen kann, die entweder von BL oder SL über die Schalter kommt, aber auch die umgewandelten digitalen Ergebnisse über dieselben Schalter an periphere Register senden kann.

Diese Anordnung bedeutet, dass unterschiedliche Datenflussrichtungen implementiert werden können, indem konfiguriert wird, welcher Schalter während der Eingangs- und Ausgangsstufen jeder Neuronalschaltung verwendet werden soll.

(Diese Architektur erinnert uns auch etwas an Der KI-Prozessorchip von SambaNova, das als ein Raster aus Recheneinheiten und Speichereinheiten implementiert ist, die durch eine On-Chip-Kommunikationsstruktur verbunden sind, die den Datenfluss steuert.)

Um die KI-Inferenzleistung mit den 48 CIM-Kernen im NeuRRAM zu maximieren, ist es laut dem Papier möglich, verschiedene Weight-Mapping-Strategien zu implementieren, die sowohl Modellparallelität als auch Datenparallelität nutzen.

Im Fall eines CNN könnte die Strategie darin bestehen, die Gewichtungen der frühen, rechenintensivsten Schichten für parallele Inferenzen auf mehrere CIM-Kerne zu duplizieren. Das Papier enthält eine detailliertere Beschreibung der verfügbaren Gewichtungs-Mapping-Strategien.

Das Papier berichtet über hardwaregemessene Inferenzergebnisse unter Verwendung des Chips für eine Reihe von KI-Aufgaben, darunter Bildklassifizierungen unter Verwendung von CIFAR-10- und MNIST-Datensätzen, Google-Sprachbefehlserkennung und MNIST-Bildwiederherstellung, die mit verschiedenen KI-Modellen implementiert werden.

Es wird behauptet, dass es bei all diesen Benchmark-Aufgaben eine Inferenzgenauigkeit erreicht, die mit Softwaremodellen vergleichbar ist, die mit 4-Bit-Gewichten trainiert wurden. Beispielsweise erreicht es eine Fehlerrate von 0.98 Prozent bei der MNIST-Handschrifterkennung mit einem 7-Layer-CNN, eine 14.34-Prozent-Fehlerrate bei der CIFAR-10-Objektklassifizierung mit ResNet-20 und eine 15.34-Prozent-Fehlerrate bei der Google-Sprachbefehlserkennung mit a 4-Zellen-LSTM (langes Kurzzeitgedächtnis).

Der NeuRRAM-Chip soll auch eine doppelt so hohe Energieeffizienz aufweisen wie frühere CIM-Chip-Designs mit RRAM über verschiedene Rechenbitgenauigkeiten hinweg. Allerdings wird der Energieverbrauch in dem Papier nicht in einer Form angegeben, die sich leicht mit kommerziellen Geräten auf dem Markt vergleichen lässt, und die unten gezeigte Abbildung zeigt den Energieverbrauch pro Vorgang in verschiedenen Bit-Präzisionen, gemessen in Femtojoule (fJ).

Wan et al

Zum Vergrößern klicken

Wan sagte uns jedoch, dass NeuRRAM für eine typische Echtzeit-Keyword-Erkennungsaufgabe, die heute auf vielen Smart-Home-Geräten ausgeführt wird (z. B. einen intelligenten Lautsprecher anzuweisen, das Licht einzuschalten), schätzungsweise weniger als 2 Mikrowatt Strom verbraucht.

„Das bedeutet, dass es selbst mit einer kleinen Knopfbatterie mehr als 10 Jahre laufen könnte (ohne Berücksichtigung des Stromverbrauchs anderer Systemkomponenten)“, sagte er.

Dem Papier zufolge wird der Chip mit einer 130-nm-CMOS-Technologie hergestellt, und es wird erwartet, dass sich die Energieeffizienz mit der Technologieskalierung verbessert, wie dies bei anderen Halbleiterprodukten der Fall ist.

Die Produktion ist noch Jahre entfernt

Werden wir also ein kommerzielles Versandgerät sehen, das auf dieser Technologie basiert? Wan sagt, dass es ein großes Kommerzialisierungspotenzial hat, und erwägt persönlich, daran zu arbeiten, es selbst herzustellen.

„Der am besten geeignete anfängliche Anwendungsfall ist sehr wahrscheinlich Extreme Edge / IoT“, sagte er uns.

Ein Produkt auf Basis des NeuRRAM-Chips könnte wie andere Beschleuniger in einem System mit einer CPU kombiniert werden, dies ist jedoch nicht für jede Anwendung erforderlich.

„In letzter Zeit gab es einen Trend, dass Daten von Sensoren direkt in KI-Prozessoren eingespeist werden, ohne die CPU oder zusätzlichen Speicher zu durchlaufen“, sagte Wan, fügte jedoch hinzu, dass solche KI-Beschleuniger in den meisten realen Einsatzfällen als Co-Prozessor fungieren für eine CPU, wobei die CPU andere Aufgaben verwaltet.

Der NeuRRAM-Chip ist nur für Inferenzarbeiten gedacht, vor allem, weil die RRAM-Technologie in ihrer derzeitigen Form nicht sehr gut für das Training geeignet ist, da der Trainingsprozess häufige Aktualisierungen des Speichers erfordert, und dies „eine sehr teure Operation am RRAM“ ist, sagte Wan.

„Derzeit sind viele kommerzielle Foundries bereits in der Lage, RRAM-Geräte herzustellen, aber hauptsächlich für eingebettete Speicheranwendungen und nicht für Compute-in-Memory. Sobald der RRAM-Prozess für IC-Designer breiter verfügbar wird, könnte ein NeuRRAM-Produkt entstehen.“

Der genaue Zeitplan dafür ist jedoch schwer vorherzusagen, und Wan sagte, dass dies in den nächsten zwei bis drei Jahren oder viel länger liegen könnte. ®

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?