Zephyrnet-logo

Studie: omgaan met toenemende stroombehoeften van ML

Datum:

Een recent onderzoek van het MIT Lincoln Laboratory en de Northeastern University heeft de besparingen onderzocht die kunnen worden gerealiseerd door power-capping GPU's die worden gebruikt bij modeltraining en -inferentie en verschillende methoden om het energieverbruik van AI te verminderen in het licht van de groeiende bezorgdheid over de energiebehoefte van enorme machine learning-modellen. .

Inhoudsopgave

Power capping kan het energieverbruik aanzienlijk verminderen bij het trainen van ML

Het grootste probleem van de studie richt zich op power capping (het afsluiten van de beschikbare stroom naar de GPU die het model traint). Ze denken dat power capping resulteert in aanzienlijke energiebesparingen, vooral voor Masked Language Modeling (MLM) en raamwerken zoals BERT en zijn nakomelingen. Taalmodellering is een snel groeiend gebied. Wist je dat Pathways Language Model kan een grap verklaren?

Soortgelijke kostenbesparingen kunnen worden behaald door de verminderde trainingstijd en het verminderde energieverbruik voor modellen op grotere schaal, die de afgelopen jaren de aandacht van mensen hebben getrokken dankzij hyperscale data en nieuwe modellen met miljarden of biljoenen parameters.

Voor grotere toepassingen ontdekten de onderzoekers dat het verlagen van de vermogenslimiet tot 150 W een gemiddelde vermindering van het energieverbruik van 13.7% en een bescheiden toename van 6.8% in de trainingstijd opleverde vergeleken met het standaardmaximum van 250 W. Als je meer in detail wilt duiken, zoek het dan uit hoe u de levenscyclus van machine learning kunt beheren door ons artikel te lezen.

Een recent onderzoek van het Mit Lincoln Laboratory en de Northeastern University heeft de besparingen onderzocht die kunnen worden gerealiseerd door Power Capping GPU's die worden gebruikt bij modeltraining en inferentie, evenals verschillende methoden om het Ai-energieverbruik te verminderen in het licht van de groeiende bezorgdheid over enorme machine learning-modellen 'Energiebehoefte.
Onderzoekers denken dat power capping resulteert in aanzienlijke energiebesparingen, vooral voor Masked Language Modeling.

De onderzoekers beweren verder dat, ondanks de krantenkoppen over de kosten van modeltraining van de afgelopen jaren, de energiebehoefte voor het gebruik van die getrainde modellen aanzienlijk groter is.

“Voor taalmodellering met BERT is de energiewinst door power capping merkbaar groter bij het uitvoeren van inferentie dan bij training. Als dit consistent is voor andere AI-toepassingen, kan dit aanzienlijke gevolgen hebben voor het energieverbruik van grootschalige of cloud computing-platforms die inferentietoepassingen voor onderzoek en de industrie bedienen.”

Ten slotte beweert de studie dat uitgebreide machine learning-trainingen beperkt moeten worden tot de koudere maanden van het jaar en 's nachts om geld te besparen op koeling.

Een recent onderzoek van het Mit Lincoln Laboratory en de Northeastern University heeft de besparingen onderzocht die kunnen worden gerealiseerd door Power Capping GPU's die worden gebruikt bij modeltraining en inferentie, evenals verschillende methoden om het Ai-energieverbruik te verminderen in het licht van de groeiende bezorgdheid over enorme machine learning-modellen 'Energiebehoefte.
Voor taalmodellering met BERT is de energiewinst door power capping merkbaar groter bij het uitvoeren van inferentie dan bij training.

“Het is duidelijk dat zware NLP-werklasten in de zomer doorgaans veel minder efficiënt zijn dan die welke in de winter worden uitgevoerd. Gezien de grote seizoensvariatie, als die er zijn, zijn er computationeel dure experimenten die kunnen worden getimed naar koudere maanden. Deze timing kan de ecologische voetafdruk aanzienlijk verkleinen”, aldus de auteurs.

De studie erkent ook het potentieel voor energiebesparing bij het optimaliseren van modelarchitectuur en -processen. De verdere ontwikkeling wordt echter aan andere inspanningen overgelaten.

Ten slotte pleiten de auteurs ervoor dat nieuwe wetenschappelijke artikelen uit de machine learning-industrie eindigen met een verklaring waarin het energieverbruik van het onderzoek en de potentiële gevolgen voor de energie van het adopteren van technologieën die daarin zijn gedocumenteerd, worden beschreven.

Het onderzoek getiteld “Grote kracht, grote verantwoordelijkheid: aanbevelingen voor het verminderen van energie voor het trainen van taalmodellen” werd uitgevoerd door zes onderzoekers Joseph McDonald, Baolin Li, Nathan Frey, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi van MIT Lincoln en Northeastern University.

Hoe creëer je energiezuinige ML?

Om hetzelfde nauwkeurigheidsniveau te bereiken, hebben machine learning-algoritmen steeds grotere hoeveelheden gegevens en rekenkracht nodig, maar de huidige ML-cultuur stelt energieverbruik gelijk aan verbeterde prestaties.

Volgens een MIT-samenwerking 2022, zou het bereiken van een tienvoudige verbetering van de modelprestaties een 10,000-voudige toename van de rekenvereisten en dezelfde hoeveelheid energie vereisen.

Als gevolg hiervan is de belangstelling voor energiezuinigere en effectievere ML-training de afgelopen jaren toegenomen. Volgens de onderzoekers is het nieuwe artikel het eerste dat zich richt op de invloed van machtsbeperkingen op de training en gevolgtrekking van machine learning, waarbij bijzondere nadruk wordt gelegd op NLP-benaderingen.

“[Deze] methode heeft geen invloed op de voorspellingen van getrainde modellen of bijgevolg op de nauwkeurigheid van hun prestaties bij taken. Dat wil zeggen dat als twee netwerken met dezelfde structuur, beginwaarden en batchgegevens worden getraind voor hetzelfde aantal batches onder verschillende vermogenslimieten, de resulterende parameters identiek zullen zijn en alleen de energie die nodig is om ze te produceren kan verschillen”, legt hij uit. De auteurs.

Een recent onderzoek van het Mit Lincoln Laboratory en de Northeastern University heeft de besparingen onderzocht die kunnen worden gerealiseerd door Power Capping GPU's die worden gebruikt bij modeltraining en inferentie, evenals verschillende methoden om het Ai-energieverbruik te verminderen in het licht van de groeiende bezorgdheid over enorme machine learning-modellen 'Energiebehoefte.
De experimenten geven aan dat het implementeren van power capping het energieverbruik aanzienlijk kan verminderen.

Om de impact van power capping op training en gevolgtrekking te evalueren, gebruikten de onderzoekers Nvidia-smi (Systeembeheerinterface) en a HuggingFace MLM-bibliotheek.

De onderzoekers trainden BERT, DestillerenBERT en Grote vogel gebruikten MLM en volgden hun energieverbruik tijdens de training en implementatie.

Voor het experiment, DeepAI's WikiText-103 De dataset werd gebruikt voor vier trainingsperioden in batches van acht op 16 V100 GPU's, met vier verschillende vermogenslimieten: 100 W, 150 W, 200 W en 250 W (de standaard of basislijn voor een NVIDIA V100 GPU). Om tijdens de training tegen vooroordelen te waken, werden scratch-getrainde parameters en willekeurige init-waarden gebruikt.

Zoals blijkt uit de eerste grafiek, kunnen met gunstige veranderingen in de trainingstijd en niet-lineaire veranderingen een grote hoeveelheid energiebesparingen worden bereikt.

“Onze experimenten geven aan dat het implementeren van stroomlimieten het energieverbruik aanzienlijk kan verminderen ten koste van trainingstijd”, aldus de auteurs.

De auteurs gebruikten vervolgens dezelfde methode om een ​​uitdagender probleem aan te pakken: het trainen van BERT op verspreide configuraties van talloze GPU's, wat een typischer geval is voor goed gefinancierde en veel gepubliceerde FAANG NLP-modellen.

In de krant staat:

“Gemiddeld voor elke configuratiekeuze leidde een beperking van 150 W aan energieverbruik tot een gemiddelde afname van 13.7% in energieverbruik en 6.8% toename in trainingstijd vergeleken met het standaardmaximum. [De] instelling van 100 W zorgt voor aanzienlijk langere trainingsduur (gemiddeld 31.4% langer). De auteurs legden uit dat een limiet van 200 W overeenkomt met bijna dezelfde trainingstijd als een limiet van 250 W, maar met een bescheidener energiebesparing dan een limiet van 150 W”, leggen de auteurs uit.

De onderzoekers stelden vast dat deze bevindingen het idee ondersteunen van GPU-architecturen met power-capping en applicaties die daarop draaien op 150W. Ze merkten ook op dat energiebesparingen van toepassing zijn op verschillende hardwareplatforms, dus herhaalden ze de tests om te zien hoe het ging met NVIDIA K80-, T4- en A100-GPU's.

Inferentie vereist veel kracht

Ondanks de krantenkoppen is het eerder een gevolgtrekking (dat wil zeggen, gebruik maken van een voltooid model, zoals een NLP-model) dan training dat volgens eerder onderzoek de meeste kracht heeft. Dit impliceert dat naarmate populaire modellen gecommercialiseerd worden en mainstream worden, het stroomgebruik kan toenemen. problematischer worden dan in deze vroege fase van NLP-ontwikkeling.

De onderzoekers kwantificeerden de invloed van gevolgtrekkingen op het stroomverbruik en ontdekten dat het beperken van het stroomgebruik een aanzienlijke invloed heeft op de latentie van gevolgtrekkingen:

“Vergeleken met 250W vereiste een instelling van 100W een dubbele inferentietijd (een toename van 114%) en verbruikte 11.0% minder energie, 150W vereiste 22.7% meer tijd en bespaarde 24.2% energie, en 200W vereiste 8.2% meer tijd met 12.0% minder energie. energie”, legden de auteurs uit.

Een recent onderzoek van het Mit Lincoln Laboratory en de Northeastern University heeft de besparingen onderzocht die kunnen worden gerealiseerd door Power Capping GPU's die worden gebruikt bij modeltraining en inferentie, evenals verschillende methoden om het Ai-energieverbruik te verminderen in het licht van de groeiende bezorgdheid over enorme machine learning-modellen 'Energiebehoefte.
De auteurs van het artikel stellen voor dat training kan worden gegeven op het hoogste niveau van Power Usage Effectiveness (PUE).

Het belang van PUE

De auteurs van het artikel stellen voor dat training kan worden gegeven op het hoogste niveau van Power Usage Effectiveness (PUE), ongeveer in de winter en 's nachts, wanneer het datacenter het meest efficiënt is.

“Er kunnen aanzienlijke energiebesparingen worden behaald als werklasten kunnen worden gepland op momenten waarop een lagere PUE wordt verwacht. Het verplaatsen van een kortlopende baan van overdag naar 's nachts kan bijvoorbeeld een reductie van grofweg 10% opleveren, en het verplaatsen van een langere, dure baan (bijvoorbeeld een taalmodel dat weken in beslag neemt) van de zomer naar de winter kan een reductie van 33% opleveren. Hoewel het moeilijk is om de besparingen te voorspellen die een individuele onderzoeker kan realiseren, benadrukt de hier gepresenteerde informatie het belang van omgevingsfactoren die van invloed zijn op het totale energieverbruik van hun werklast”, aldus de auteurs.

Ten slotte suggereert het artikel dat, omdat het onwaarschijnlijk is dat lokale verwerkingsbronnen dezelfde efficiëntiemaatregelen hebben geïmplementeerd als grote datacentra en high-level cloud computing-spelers, het overbrengen van werklasten naar regio's met diepgaande energie-investeringen milieuvoordelen kan opleveren.

“Hoewel het handig is om privé computerbronnen te hebben die toegankelijk zijn, brengt dit gemak een prijs met zich mee. Over het algemeen zijn energiebesparingen en impact gemakkelijker te realiseren op grotere schaal. Datacenters en cloud computing-aanbieders investeren aanzienlijk in de efficiëntie van hun faciliteiten”, aldus de auteurs.

Dit is niet de enige poging om energiezuinige modellen voor machinaal leren en kunstmatige intelligentie te creëren. De nieuwste onderzoeken tonen dat aan Nanomagneten zullen de weg vrijmaken voor energiezuinige AI.

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?