Zephyrnet-logo

AI Stroomverbruik explodeert

Datum:

Machine learning ligt op schema om alle geleverde energie te verbruiken, een model dat duur, inefficiënt en onhoudbaar is.

Voor een groot deel komt dit omdat het veld nieuw, opwindend en snel groeiend is. Het wordt ontworpen om nieuwe wegen in te slaan in termen van nauwkeurigheid of capaciteit. Tegenwoordig betekent dat grotere modellen en grotere trainingssets, die een exponentiële toename van de verwerkingscapaciteit en het verbruik van enorme hoeveelheden stroom in datacenters voor zowel training als inferentie vereisen. Bovendien beginnen overal slimme apparaten te verschijnen.

Maar de collectieve machtscijfers beginnen mensen bang te maken. Op de recente Design Automation Conference plaatste AMD CTO Mark Papermaster een dia die het energieverbruik van ML-systemen toont (figuur 1) in vergelijking met de wereldwijde energieproductie.

Fig. 1: Energieverbruik van ML. Bron: AMD

Fig. 1: Energieverbruik van ML. Bron: AMD

Papermaster is niet de enige die alarm slaat. "We zijn vergeten dat efficiëntie de afgelopen 100 jaar de motor van innovatie is geweest", zegt Steve Teig, CEO van Perceive. “Dat is de drijfveer van de Wet van Moore. We bevinden ons nu in een tijdperk van anti-efficiëntie.”

En Aart deGeus, voorzitter en CEO van Synopsys, smeekte plant Aarde om er iets aan te doen. "Hij of zij die de hersens heeft om te begrijpen, moet het hart hebben om te helpen."

Waarom stijgt het energieverbruik zo snel? "De computervraag van neurale netwerken is onverzadigbaar", zegt Ian Bratt, fellow en senior director of technology bij Arm. “Hoe groter het netwerk, hoe beter de resultaten en hoe meer problemen je kunt oplossen. Het energieverbruik is evenredig met de grootte van het netwerk. Daarom is energie-efficiënte inferentie absoluut essentieel om de adoptie van steeds geavanceerdere neurale netwerken en verbeterde use-cases, zoals realtime spraak- en visietoepassingen, mogelijk te maken.

Helaas geeft niet iedereen om efficiëntie. "Als je kijkt naar wat de hyperscaler-bedrijven proberen te doen, proberen ze betere en nauwkeurigere spraakherkenning, spraakherkenning en aanbevelingsengines te krijgen", zegt Tim Vehling, senior vice-president voor product- en bedrijfsontwikkeling bij Mythic. “Het is een geldkwestie. Hoe nauwkeuriger ze kunnen worden, hoe meer klanten ze kunnen bedienen en hoe meer winstgevendheid ze kunnen genereren. Je kijkt naar datacentertraining en gevolgtrekking van deze zeer grote NLP-modellen, dat is waar veel stroom wordt verbruikt. En ik weet niet of er een echte motivatie is om het vermogen in die toepassingen te optimaliseren.”

Maar sommige mensen geven er wel om. "Er is enige commerciële druk om de COXNUMX-impact van deze bedrijven te verminderen, niet direct geldelijk, maar meer dat de consument alleen een koolstofneutrale oplossing accepteert", zegt Alexander Wakefield, wetenschapper bij Synopsys. "Dit is de druk van de kant van groene energie, en als een van deze leveranciers zou zeggen dat ze COXNUMX-neutraal zijn, zullen meer mensen ze waarschijnlijk gebruiken."

Maar niet alle energie wordt in de cloud verbruikt. Er zijn ook een groeiend aantal smart edge-apparaten die bijdragen aan het probleem. "Er zijn miljarden apparaten die deel uitmaken van het IoT, en op een bepaald moment in de niet al te verre toekomst zullen ze meer stroom verbruiken dan we in de wereld genereren", zegt Marcie Weinstein, directeur van strategische en technische marketing voor Aspiniteit. "Ze verbruiken stroom om te verzamelen en te verzenden, en doen wat ze moeten doen met al deze gegevens die ze verzamelen."

Fig. 2: Inefficiëntie van Edge-verwerking. Bron: Aspinity/IHS/SRC

Fig. 2: Inefficiëntie van Edge-verwerking. Bron: Aspinity/IHS/SRC

Fig. 2: Inefficiëntie van Edge-verwerking. Bron: Aspinity/IHS/SRC

Vermogen verminderen
In het verleden vertrouwde de technische wereld op het opschalen van halfgeleiders om dingen energiezuiniger te maken. "Onze procestechnologie nadert de grenzen van de natuurkunde", zegt Michael Frank, fellow en systeemarchitect bij Arteris IP. “De breedte van de transistor ligt ergens tussen de 10 en 20 roosterconstanten van siliciumdioxide. We hebben meer draden met verdwaalde capaciteit, en er gaat veel energie verloren bij het opladen en ontladen van deze draden. We kunnen onze spanningen niet significant verlagen voordat we in een niet-lineair gebied komen waar de uitkomst van een operatie statistisch wordt beschreven in plaats van deterministisch. Vanuit de technologiekant geef ik ons ​​niet echt een goede kans. Toch is er een proof of concept dat ongeveer 20 watt verbruikt en al deze dingen doet, inclusief leren. Dat heet het brein.”

Is ML dus efficiënter dan het alternatief? "Het stroomverbruik van ML moet worden gezien in het perspectief van het applicatiesysteem, waarbij de afweging afhangt van de winst in de algehele prestaties van de opname van ML versus het energieprofiel van het hele systeem", zegt Joe Hupcey, ICVS-productmanager voor Siemens EDA. "En binnen de vele toepassingsdomeinen heeft de industrie zeer efficiënte ML FPGA's en ASIC's ontwikkeld om het stroomverbruik tijdens training en inferentie te verminderen, en er wordt veel geïnvesteerd om deze trend voort te zetten."

Er is één effect dat meer bezorgdheid over macht kan afdwingen. "Sommige bedrijven kijken naar vermogen per vierkante micron vanwege de warmte", zegt Godwin Maben, wetenschapper van Synopsys. “Iedereen maakt zich zorgen over de hitte. Als je veel poorten op elkaar stapelt in een klein gebied, is de vermogensdichtheid hoog, gaat de temperatuur omhoog en nadert je thermische wegloop. De vermogensdichtheid beperkt nu de prestaties. Als EDA-leverancier kijken we niet alleen naar vermogen, want als warmte in beeld komt, worden prestaties per watt en vervolgens prestaties per watt per vierkante micron belangrijk.”

Er zijn verschillende manieren om naar het probleem te kijken. "Ik kijk meestal liever naar energie per gevolgtrekking dan naar vermogen", zegt Russ Klein, HLS-platformdirecteur voor Siemens EDA. “Kijken naar macht kan een beetje misleidend zijn. Een CPU verbruikt bijvoorbeeld doorgaans minder stroom dan een GPU. Maar GPU's kunnen veel sneller gevolgtrekkingen uitvoeren dan een CPU. Het resultaat is dat als we kijken naar de energie per gevolgtrekking, GPU's een gevolgtrekking kunnen maken met een fractie van de energie die een CPU nodig zou hebben."

Waar de meeste energie wordt verbruikt, is niet duidelijk, en hoewel dat voor de hand liggend lijkt, blijkt het nogal controversieel te zijn. Er zijn twee assen om te overwegen: training versus inferentie en edge versus cloud.

Training versus gevolgtrekking
Waarom kost training zoveel energie? "Er wordt veel energie verbruikt als je dezelfde dataset meerdere keren herhaalt", zegt Frank van Arteris. "Je doet benaderingen van het gradiëntafdalingtype. Het model is in feite een hyperdimensionaal oppervlak en je doet een gradiënt, die wordt gedefinieerd door het differentiaalquotiënt dat door een multidimensionale vectorruimte daalt.

De hoeveelheid energie die daarbij wordt verbruikt, neemt snel toe. “Als je kijkt naar de hoeveelheid energie die twee jaar geleden nodig was om een ​​model te trainen, lag dat voor sommige transformatormodellen rond de 27 kilowattuur”, zegt Maben van Synopsys. “Als je naar de transformatoren van vandaag kijkt, is dat meer dan een half miljoen kilowattuur. Het aantal parameters ging van misschien 50 miljoen naar 200 miljoen. Het aantal parameters nam vier keer toe, maar de hoeveelheid energie steeg met meer dan 18,000X. Waar het uiteindelijk op neerkomt, is de CO2-voetafdruk en hoeveel kilo's CO,sub>XNUMX dit creëert.”

Hoe verhoudt zich dat tot gevolgtrekking? "Training omvat een voorwaartse en achterwaartse pas, terwijl gevolgtrekking alleen de voorwaartse pas is", zegt Suhas Mitra, productmarketingdirecteur voor Tensilica AI-producten bij Cadence. “Als gevolg hiervan is de kracht voor gevolgtrekking altijd lager. Ook kunnen batchgroottes tijdens de training vaak groot zijn, terwijl inferentie de batchgrootte kleiner zou kunnen zijn.

Waar het omstreden wordt, is wanneer u probeert het totale stroomverbruik van beide functies te schatten. "Er is discussie over wat meer energie verbruikt, training of gevolgtrekking", zegt Maben. “Het trainen van een model kost enorm veel energie en het aantal dagen dat nodig is om op basis van deze gegevens te trainen is enorm. Maar kost het meer energie dan de gevolgtrekking? De opleiding is een eenmalige kost. Je besteedt veel tijd aan trainingen. Het probleem in de trainingsfase is het aantal parameters en sommige modellen hebben 150 miljard parameters.”

Bovendien wordt er vaak meer dan één keer getraind. “Trainen is niet één en klaar en kom nooit meer terug”, zegt Mythic's Vehling. “Ze trainen voortdurend om, optimaliseren modellen opnieuw, zodat de training een constante is. Ze passen het model voortdurend aan, vinden verbeteringen, een dataset wordt verbeterd, dus het is min of meer een doorlopende activiteit.”

De gevolgtrekking kan echter vele malen worden herhaald. "Je traint een model, dat misschien is ontwikkeld voor een zelfrijdende auto, en dat model wordt nu in elke auto gebruikt", vult Maben aan. "Nu hebben we het over inferentie in misschien 100 miljoen auto's. Een voorspelling is dat meer dan 70% tot 80% van de energie zal worden verbruikt door gevolgtrekking in plaats van door training.”

Er zijn enkele gegevens die dit ondersteunen. “In een recente papier van Northeastern en MIT, wordt geschat dat gevolgtrekking een aanzienlijk grotere impact heeft op het energieverbruik dan training”, zegt Philip Lewer, senior director of product bij Untether AI. "Dit komt omdat modellen uitdrukkelijk zijn gebouwd met het doel van gevolgtrekking, en dus aanzienlijk vaker in de inferentiemodus werken dan in de trainingsmodus - in wezen één keer trainen, overal rennen."

Cloud versus rand
Het verplaatsen van een applicatie van de cloud naar de edge kan om veel verschillende redenen gebeuren. "De markt heeft gezien dat er bepaalde activiteiten zijn die beter naar de rand worden gepusht dan naar de cloud", zegt Paul Karazuba, vice-president marketing voor Expedera. “Ik denk niet dat er een duidelijke scheidslijn is tussen wat wel en niet aan de rand zal worden gedaan en hoe die beslissingen zullen worden genomen. We zien een verlangen naar meer AI aan de rand, we zien een verlangen naar meer missiekritieke toepassingen aan de rand in plaats van AI als een stempel op de buitenkant van de doos. De AI doet eigenlijk iets nuttigs in het apparaat, in plaats van er alleen maar te zijn.”

Het is niet alsof je een cloudmodel neemt en naar de rand verplaatst. "Stel dat je deze toepassing voor natuurlijke spraak en spraakherkenning hebt", zegt Vehling van Mythic. “Je traint die modellen in de cloud. En meestal gebruikt u die modellen voor gevolgtrekking in de cloud. Als je kijkt naar de inferentie-applicaties die meer in de edge zitten, die niet cloudgebaseerd zijn, train je het model voor die lokale bronnen. Het zijn dus bijna twee verschillende problemen die je oplost. De ene is cloudgebaseerd, de andere is edge-based en ze zijn niet per se gekoppeld.”

Modellen moeten worden gebouwd, wetende waar ze uiteindelijk zullen draaien. "Normaal gesproken zul je de multi-miljard parametermodellen in de cloud aantreffen, maar dat is slechts één categorie modellen", voegt Vehling toe. "Aan het andere uiterste heb je heel kleine wake-up word-modellen die heel weinig middelen vergen - noem ze tiny ml of zelfs daaronder. En dan in het midden is de categorie modellen, zoals visuele analysemodellen, die u mogelijk ziet worden gebruikt in op camera's gebaseerde toepassingen. Ze zijn veel kleiner dan de modellen in de cloud, maar ook veel groter dan dit soort heel simpele wake-up word.”

En het is niet alleen gevolgtrekking die op het randje ligt. We zullen waarschijnlijk steeds meer trainingen zien. "Federaal leren is een voorbeeld", zegt Sharad Chole, hoofdwetenschapper bij Expedera. “Een gebied waarin dat is gebruikt, is automatisch aanvullen. Auto-complete kan voor iedereen anders zijn, en hoe leer je dat eigenlijk? Hoe pas je dat aan? Dit moet gebeuren met behoud van de privacy van de gebruiker. Er zijn uitdagingen.”

Op weg naar meer efficiëntie
Het verplaatsen van een applicatie van het trainingssysteem naar de edge brengt een aanzienlijke softwarestack met zich mee. "Als je eenmaal voorbij de initiële trainingsfase bent, leveren vervolgoptimalisaties aanzienlijk lichtere modellen met weinig prestatieverlies", zegt Hupcey van Siemens. “Modelvereenvoudigingstechnieken worden gebruikt om het stroomverbruik tijdens gevolgtrekking te verminderen. Kwantisering, gewichtssnoei en benadering worden veel gebruikt na of tijdens modeltraining vóór de implementatie ervan. Twee van de meest zichtbare gevallen zijn TinyML en de light-versies van GPT-3.”

Klein voegt hieraan toe: “Uitval en snoei zijn een goed begin. Kwantificeren naar kleinere numerieke weergave helpt ook. Als ze agressief worden uitgevoerd, kunnen ze de omvang van het netwerk met 99% of meer verkleinen, en in veel gevallen resulteren in een nauwkeurigheidsdaling van minder dan 1%. Sommige mensen kijken ook naar het ruilen van kanalen met lagen in het model om kleinere netwerken te krijgen zonder de nauwkeurigheid te beïnvloeden.”

Deze technieken verkleinen zowel de modelgrootte als direct de energiebehoefte, maar er zijn meer verbeteringen mogelijk. "Op dit moment zien we ondersteuning voor gemengde precisie, waarbij elke laag kan worden gekwantiseerd naar een ander domein", zegt Expedera's Chole. “Dat zou nog verder kunnen worden doorgevoerd. Misschien kan in de toekomst elke dimensie van de gewichten met verschillende precisie worden gekwantificeerd. Deze push is goed, want dan worden de datawetenschappers zich tijdens de training bewust van hoe ze het vermogen kunnen verminderen en welke nauwkeurigheid ze doen terwijl ze het vermogen verminderen.”

Conclusie
Modellen worden groter in een poging om meer nauwkeurigheid te krijgen, maar die trend moet stoppen omdat de hoeveelheid stroom die het verbruikt onevenredig toeneemt. Hoewel de cloud zich dat vandaag de dag kan veroorloven vanwege zijn bedrijfsmodel, kan de edge dat niet. En naarmate meer bedrijven investeren in edge-applicaties, kunnen we verwachten dat er meer aandacht zal komen voor energie-optimalisatie. Sommige bedrijven kijken naar reducties van 100X in de komende 5 jaar, maar dat is lang niet genoeg om deze trend te stoppen.

spot_img

Laatste intelligentie

spot_img