Zephyrnet-logo

Processorafwegingen voor AI-workloads

Datum:

AI dwingt fundamentele verschuivingen af ​​in chips die in datacenters worden gebruikt en in de tools die worden gebruikt om ze te ontwerpen, maar creëert ook hiaten tussen de snelheid waarmee die technologie zich ontwikkelt en de eisen van klanten.

Deze verschuivingen zijn geleidelijk begonnen, maar zijn het afgelopen jaar versneld en vermenigvuldigd met de uitrol van ChatGPT en andere grote taalmodellen. Er zijn plotseling veel meer gegevens en die moeten allemaal sneller worden verwerkt, met minder stroom en met meer functionaliteit in een beperkte ruimte.

Tot overmaat van ramp, omdat dit nieuwe technologie is, is het ook in een staat van bijna continue verandering. Dat creëert op zijn beurt een aantal moeilijke compromissen die schijnbaar haaks op elkaar staan. Chips hebben bijvoorbeeld ingebouwde flexibiliteit nodig om rekening te houden met deze veranderingen, maar dan met de prestaties en energie-efficiëntie die normaal gesproken worden geassocieerd met een ASIC. Deze ontwerpen vereisen ook strak geïntegreerde software, maar voldoende flexibiliteit om te meten en te reageren op vermogens- en prestatie-effecten veroorzaakt door wijzigingen in de algoritmen. En dit alles moet eerder in de ontwerpcyclus gebeuren.

"Als je een tijdje teruggaat naar de hardwarekant in het datacenter, had Intel dit misschien tien jaar geleden zien aankomen toen ze Altera kochten", zegt Alexander Wakefield, wetenschapper op het gebied van applicatietechniek bij Synopsys. “Het idee was dat we een FPGA-fabric naast de x86-CPU kunnen plaatsen en dat dit een revolutie teweeg zal brengen in de wereld. Ze betaalden veel geld voor Altera, namen ze op in het bedrijf en toen gebeurde er niets. Is FPGA daar echt het juiste stuk voor? Misschien niet. Het is echt geweldig als je iets kunt nemen, het kunt synthetiseren tot een soort hardwarelogica en het in een FPGA kunt stoppen. Het is als een AI, en het is een versneller. Maar is het de juiste versneller? Misschien niet. NVIDIA had het goed, en de aandelenkoers heeft dat aangetoond. Klanten willen een werklast nemen die op software is gebaseerd en deze op een stuk hardware zetten met duizenden kleine verwerkingseenheden op de GPU, en ze moeten zeer complexe taken uitvoeren die klaar zijn voor GPU.'

De generatieve AI-revolutie begon in 2017 met de publicatie van de baanbrekende paper "Attention Is All You Need", aldus Arif Khan, senior product marketing group director voor PCIe, CXL en Interface IP bij Cadans. “Dit document beschreef het transformatormodel dat de basis vormde van implementaties van grote taalmodellen (LLM) die toepassingen zoals ChatGPT en DALL-E hebben aangestuurd, waardoor AI tegenwoordig een begrip is geworden. ChatGPT is tot nu toe sneller geadopteerd dan welke andere applicatie dan ook en heeft binnen twee maanden na de lancering 100 miljoen gebruikers bereikt. De trainingsmodellen gebruiken honderden miljarden parameters om conclusies te kunnen trekken wanneer gebruikers deze systemen opvragen.

AI/ML-ontwerpen voor training, inferentie, datamining en grafiekanalyse hebben verschillende behoeften. "De trainings-SoC's vereisen bijvoorbeeld gespecialiseerde architecturen met TPU's/GPU's of aangepaste ontwerpen die de vectorbewerkingen kunnen uitvoeren en gewichten kunnen delen tijdens de training", zei Khan. Ontwerpen gericht op inferentie moeten reageren op grote hoeveelheden vragen en hebben netwerkinterfaces met een hogere bandbreedte nodig.

Chips in datacenters waren al grensverleggend qua fysieke omvang. Sommige van deze chips waren groter dan het dradenkruis en moesten aan elkaar worden genaaid. Die benadering wordt steeds vaker vervangen door omhoog te duwen naar de Z-dimensie.

"Bedrijven zoals AMD zijn erg bezig met het bouwen van 3D-IC-ontwerpen, die zijn geïntegreerd in de verticale schaal", zegt Preeti Gupta, directeur productmanagement voor halfgeleiderproducten bij Ansys. “Je plaatst halfgeleiderchips op elkaar, en niet alleen naast elkaar, zoals de tweedimensionale lay-out die we in het verleden hebben gedaan. Dat is echt om de PPA-doelstellingen te halen en tegelijkertijd de kosten laag te houden.”

Maar dit heeft invloed op de manier waarop chips worden ontworpen en er zijn andere tools, methodologieën en stromen voor nodig om het ontwerpproces te automatiseren. Lay-outs moeten rekening houden met thermische effecten en geluid, evenals met het gedrag van verschillende materialen en structuren in de loop van de tijd. Dit alles verhoogt de hoeveelheid gegevens die alleen in de ontwerpfase moet worden verwerkt, beheerd en opgeslagen. Hoe verdelen ontwerpteams bijvoorbeeld alle te verwerken gegevens over verschillende rekenelementen en zorgen ze er vervolgens voor dat de resultaten nauwkeurig zijn wanneer ze opnieuw worden gecombineerd? En hoe kan meer hiervan eerder in de stroom worden gedaan, zoals het begrijpen van de impact van algoritmeveranderingen op hardwareprestaties en -vermogen met behulp van echte workloads?

"AI/ML-ontwerpers willen hun algoritmen vroeg in de ontwerpstroom optimaliseren", aldus Gupta. "Ze willen dit ook heel snel doen - hebben meerdere iteraties binnen een dag. Het is duidelijk dat wanneer je je RTL hebt ontworpen, je het hebt gesynthetiseerd tot een netlijst, en nu wil je het algoritme veranderen dat een lange lus is - de ontwerpteams zouden minstens 10x meer productiviteit kunnen behalen als ze deze optimalisaties zouden doen op RTL. Bovendien willen deze AI/ML-teams de ontwerpbeslissingen begeleiden met behulp van echte applicatieworkloads. We merken dat deze bedrijven nu zeer snelle vroege vermogensprofileringstechnieken gebruiken om voor een echte applicatiewerklast uit te zoeken hoe het piekvermogen of een di/dt-gebeurtenis verandert als ze het AI-algoritme veranderen. Stel je de kracht voor van het meerdere keren per dag kunnen genereren van een vermogensgolfvorm per cyclus over miljarden cycli terwijl het AI-algoritme wordt geoptimaliseerd. Ze gebruiken die snelle profileringsbenaderingen om AI-algoritmen te optimaliseren in de context van macht.”

Bovendien moet de timing van elk facet van het ontwerp worden gesynchroniseerd om de prestatie- en vermogensdoelen te bereiken en functioneel bruikbaar te zijn. "Vanuit het perspectief van de ontwerper is timing altijd erg belangrijk geweest bij elk soort chipontwerp", zegt Mahmud Ullah, principal product applications engineer bij Siemens Digital Industries-software. “Maar de afgelopen tijd hebben we gezien dat het niet alleen om timing gaat. Macht is ook een punt van zorg. In die context is voor veel ontwerpers die datacenterchips ontwerpen – evenals chips voor verschillende gebieden, waaronder CPU’s, GPU’s, IoT – kracht een belangrijk punt van zorg. En specifiek voor technische teams die datacenterchips maken, willen ze het vermogen meten aan het begin van hun ontwerpcycli, omdat vermogen tegenwoordig een van de belangrijkste beperkingen is.

Simpel gezegd, er wordt veel meer data naar links verschoven, en dat zorgt voor een overstroming aan de voorkant van de ontwerpcyclus.

"Het belangrijkste is hoe nauwkeurig je het vermogen kunt voorspellen," zei Ullah, "Op SoC-niveau zijn dit grote ontwerpen, die bijna een miljard poorten kunnen hebben. Het belangrijkste doel is om te weten hoe nauwkeurig je die kracht kunt voorspellen. En om dat te doen, kun je het alleen meten door het op emulatietools uit te voeren, want dan kun je zien welke eindtoepassingen je gaat gebruiken. Er kunnen situaties zijn waarin je een nieuw soort software ontwerpt, en als je die software gaat draaien, zie je ineens dat de chip niet werkt. Om deze situatie te voorkomen, zou het nuttig zijn om in een zeer vroeg stadium echte toepassingen voor uw ontwerpen uit te voeren. In datacenterontwerpen wordt vermogensschatting op SoC-niveau gebruikt. Van daaruit voert het engineeringteam hun grote ontwerpen uit met echte toepassingen en echte stimulansen. Vervolgens isoleren ze de stroomgerelateerde problemen in een vroeg stadium, repareren ze die dingen en doen ze verdere optimalisatie.

Cadence's Khan merkte ook op dat stroomverbruik een punt van zorg is. “Trainingsmodellen zijn extreem energie-intensief en het onderhouden van deze modellen voor inferentie blijft continu energie verbruiken. Nieuwere architecturen voor training zijn gebaseerd op gespecialiseerde architecturen om vectorbewerkingen en plaats van gegevensverplaatsing te optimaliseren, en er is een steeds groeiend aantal startups die in deze ruimte werken. We zien de impact in termen van ontwerpbeslissingen zoals geheugenkeuze: HBM versus GDDR versus LPDDR; de opkomst van op chiplets gebaseerde partities en de enorme vraag naar UCIe als interface voor chipletconnectiviteit; en de toegenomen inzet van CXL om nieuwe geheugenarchitecturen te ondersteunen.”

Dat was achteraf veel eenvoudiger, vóór de uitrol van generatieve AI. Het niveau van onzekerheid en de hoeveelheid gegevens die moet worden verwerkt, is geëxplodeerd. Er zijn veel meer opties om te overwegen, en dit alles moet betrouwbaar en snel worden gedaan. Maar wat is de beste aanpak, en hoe wordt dat zo ontworpen en verdeeld dat het vermogen beheersbaar is en de prestaties voldoende zijn, en waar het volledig kan draaien zonder oververhitting?

Wakefield van Synopsys vraagt ​​zich af of een processorchip en een AI-chip samen geïntegreerd moeten worden op hetzelfde stukje silicium of op hetzelfde substraat. “Moeten ze op hetzelfde bord worden geplaatst? Zeker. Het gebeurt al. Verhoogt dat de stroombehoefte en betekent dit dat de omvang van deze modellen blijft groeien? Ja. Als je kijkt naar de kosten die NVIDIA kan krijgen voor een van hun AI-chips, is dat aanzienlijk. Hun catalogusprijs is $ 30,000 tot $ 40,000 voor een enkel stuk silicium. Een deel van het probleem is dat als je naar de vermogensspecificaties van deze dingen kijkt, de nieuwste NVIDIA GPU's 450 tot 500 watt aan stroom verbruiken. Hoe houd je dit ding cool? Hoe voorkom je dat het silicium smelt? Hoe doe je dat efficiënt als je de stroombehoefte voor bepaalde toepassingen reduceert? Dat wordt later echt een probleem. Op dit moment verbruikt het veel stroom en mensen zijn bereid om de kosten te betalen. Maar wanneer AI steeds vaker voorkomt in veel verschillende dingen, wil je geen 500 watt uitgeven aan dat item plus de koelingskosten. Dus misschien is het een kilowatt voor een bepaalde taak. In je voertuig wil je niet dat er een kilowatt aan stroom naar het zelfrijdende systeem gaat. U wilt de kilowatt aan vermogen die de wielen aandrijft. De AI-architecturen zullen beter worden. Ze zullen verfijnder worden, ze zullen meer op maat worden gemaakt. Verschillende bedrijven kondigen verschillende AI-projecten binnen hen aan, en er zijn bedrijven die AI als IP's verkopen."

De hoeveelheid rekenkracht die nodig is voor generatieve AI is in feite een buigpunt op zich.

"Als je eenmaal een AI-chip hebt gebouwd en er 1,000 AI-kernen in zitten, willen klanten 2,000 of 4,000 kernen in hun volgende ontwerp", aldus Wakefield. “Degene daarna zal nog meer hebben. Dan gaan we naar 3D-IC's, en je zult in staat zijn om deze kleine stukjes te bouwen, ze allemaal op elkaar te stapelen en stapels te maken van deze dingen die allemaal met elkaar verbonden zijn. Intel's Ponte Vecchio [nu Intel Data Center GPU Max Series genoemd] is zo groot als een creditcard, met 30 aan elkaar genaaide tegels. Voor het bereiken van de juiste opbrengst, voor het juiste testen, kan elk van die individuele tegels verschillende technologieknooppunten zijn, en ze kunnen bepaalde delen ervan opnieuw laten draaien en ze vervolgens aan elkaar naaien om een ​​product te maken. We zullen ook meer van dat zien aankomen.

Gegevens verplaatsen en beheren
Veel van deze veranderingen worden aangedreven door AI, of het nu gaat om machine learning, deep learning, generatieve AI of een andere variant. Maar de groeiende systeemeisen overtreffen snel het vermogen om die systemen te ontwerpen, waardoor hiaten op elk niveau ontstaan ​​en een snellere acceptatie van nieuwe technologieën wordt gestimuleerd dan ooit tevoren.

"Als we kijken naar alle technologische schaaltrends, bijvoorbeeld geheugen, verdubbelen de prestaties van DDR-geheugen ongeveer elke vijf jaar", merkt Steven Woo op, collega en onderscheiden uitvinder bij Rambus. “Maar in het geval van HBM is het sneller. Elke twee tot drie jaar verdubbelt HBM in snelheid. Over het algemeen zal het aantal kernen in processors om de paar jaar verdubbelen. Hoewel dat misschien langzamer gaat, is dat de historische trend. Dan kijken we naar AI - vooral aan de trainingskant - en de vraag verdubbelt elke paar maanden. Dus we beginnen ons op dit punt te realiseren: 'Wow, er is niets dat ik alleen op het silicium kan doen om deze trends bij te houden.' Wat iedereen dan zegt is: 'Nou, prima, als ik het niet in één stuk silicium kan doen, dan doe ik het in heel veel stukjes silicium. En dan ga ik steeds meer stukjes silicium aan elkaar ketenen.'”

Dat klopt allemaal in theorie. Het probleem is het verdelen van taken tussen al deze verwerkingsengines en het optellen van de resultaten aan het einde.

"De hoeveelheid werk die iedereen doet, neemt af voor elke [engine] die je toevoegt, en de hoeveelheid communicatie die we moeten doen gaat omhoog omdat er meer [engines] zijn om mee te praten," zei Woo. “Het is altijd zo geweest dat communicatie erg duur is. En vandaag, als je kijkt naar de verhouding tussen hoe snel computergebruik is en communicatie, lijkt het computergebruik in sommige scenario's bijna gratis. De communicatie is wat je echte bottleneck is. Er is dus een grens aan hoe ver je echt kunt gaan in termen van hoeveel je een probleem oplost, deels omdat je wilt dat de motoren iets te doen hebben. Maar je wilt ook niet zoveel communiceren dat het de bottleneck wordt.”

Dat is ook maar één aspect van het probleem. Deze problemen duiken overal op.

"Wat er gebeurt, is dat in bepaalde soorten markten mensen bereid zijn te zeggen: 'Dit is zo'n belangrijk probleem dat ik een speciaal soort communicatienetwerk ga ontwerpen om dit allemaal op te lossen', merkte hij op. “We zien dit in de AI-ruimte waar bedrijven als NVIDIA iets hebben genaamd NVLink, wat hun supersnelle communicatiemechanisme is. Andere bedrijven hebben andere methodes. Google TPU heeft zijn eigen soort netwerk. Er is nu veel interesse in optica voor die communicatie, omdat er veel interesse is om siliciumfotonica-technologie volwassen te zien worden. Het gevoel is dat zodra je de impact van het communicatieprobleem verkleint, de rekenmachines weer het grote ding worden. Het gaat erom: 'Hoe kijk ik hiernaar en zorg ik ervoor dat de communicatie niet het grote knelpunt is?' Een manier om over communicatie na te denken is dat het bijna dit noodzakelijke kwaad is van wat we moeten doen om de problemen op te lossen. Maar op zichzelf brengt het communiceren van gegevens van het ene knooppunt naar het andere de berekening niet echt vooruit. Het is gewoon een noodzakelijk kwaad om door te gaan met rekenen.”

Moeilijkere afwegingen
Er zijn veel bewegende delen om alle PPA-vereisten binnen een datacenterchip in evenwicht te brengen, en verbeteringen of wijzigingen aan een ervan hebben vaak gevolgen voor ten minste een van de andere twee vereisten.

"Aan de softwarekant bouwen klanten een AI-versneller, die een combinatie is van de hardware die ze verkopen, het silicium en een soort bibliotheek of stuurprogramma's of softwarelaag die ze ermee verkopen", merkte Wakefield op. “Het is de totale prestatie van beide dingen samen waar de eindklant om geeft. Als uw software echt slecht is, is uw AI-compiler slecht en gebruikt deze de hardware slecht. Dan verlies je klanten omdat je het niet op kunt nemen tegen de concurrentie, die misschien inferieure hardware heeft, maar een betere softwarestack.”

Dit heeft veel meer nadruk gelegd op verkenning vooraf. "Je kunt naar een van de cloudproviders gaan en een NVIDIA GPU of A100-chip huren en je werklast daarop uitvoeren", merkte Wakefield op. 'Ze vragen je zo veel per minuut om het te laten werken. Vinden ze het leuk om deze chips van NVIDIA te kopen voor $ 30,000 of $ 40,000? een stuk? Waarschijnlijk niet. Gaan ze zelf bouwen? Waarschijnlijk. Dat zagen we bij Amazon. Bij AWS kun je Graviton-ruimte huren, de Amazon-versie van een kern. Het is hun eigen kern, niet Intel of AMD, dus je zult waarschijnlijk hetzelfde soort dingen zien gebeuren in het datacenter voor verschillende workloads, waar misschien speciaal silicium is dat wat meer vermogen/prestatie-gewijs optimaal is voor een bepaald ding, of het is een mix van gewone processor en AI-chip samen in dezelfde 3D-IC. Misschien is dat logischer. Dan zul je voor bepaalde aangepaste toepassingen zeker een aangepaste ASIC zien die de juiste combinatie van hardware heeft die je nodig hebt met het juiste vermogensprofiel en prestatieprofiel voor bepaalde ingebedde toepassingen, zoals zelfrijdende auto's, beveiligingscamera's, zelfs je Ring-deurbel die twee jaar op een batterij werkt.”

Een van de grootste afwegingen op dit gebied is de afweging tussen geheugenbandbreedte, capaciteit en kosten.

"Het is een klassieke 'keuze twee' tussen bandbreedte, capaciteit en kosten, en soms is het een 'keuze'," aldus Marc Greenberg, product marketing group director voor DDR, HBM, flash/storage en MIPI IP bij Cadence. “Een gebruiker met een lage capaciteit kan kiezen voor een single-rank DDR5 unbuffered DIMM (UDIMM) voor de meest kostengevoelige toepassingen. Om een ​​hogere capaciteit te bereiken, zou een dual-rank UDIMM kunnen worden gebruikt om de geheugencapaciteit te verdubbelen - ten koste van een iets hogere belasting van de DRAM-bus, wat de DRAM-bus zou kunnen vertragen, maar geen andere significante kosten dan het extra gebruikte geheugen. ”

Gebruikers van datacenters kiezen vaak voor geregistreerde DIMM's, wat een verdere verdubbeling van de maximale capaciteit mogelijk maakt door een groter aantal DRAM-chips per DIMM te ondersteunen. ) chip die in elke DIMM wordt geïntroduceerd. "Voor nog meer capaciteit kan een tweede DIMM-socket op het kanaal worden toegevoegd, wat ten koste gaat van verdere belasting en verminderde signaalintegriteit op de DRAM-bus, wat opnieuw de bandbreedte/snelheid kan beïnvloeden", aldus Greenberg.

Daarnaast kunnen DIMM's met een hogere capaciteit de capaciteit verder verdubbelen of verviervoudigen door DRAM-apparaten in 3D te stapelen. "En om meer capaciteit toe te voegen, kan een CPU-fabrikant extra DIMM-kanalen parallel toevoegen, wat de bandbreedte en capaciteit verdubbelt, maar ook het siliciumgebied en de pakketpennen verdubbelt die geassocieerd zijn met DRAM op de CPU. Dit is een open ruimte voor innovatie en er zijn opwindende ontwikkelingen om zowel capaciteit als bandbreedte toe te voegen aan de besproken DRAM-bus”, voegde hij eraan toe.

Chips bouwen in de toekomst
Wakefield gelooft dat we meer van dit zullen zien gebeuren in de AI-ruimte. “Het is momenteel nog een beetje het Gold Rush-stadium, waar mensen zo snel mogelijk de chip eruit moeten zien te krijgen. Als het vandaag wat extra stroom verbruikt, maakt het niet zoveel uit. Mensen betalen veel geld voor een AI-chip. Het vermogen dat ze verbruiken is een factor, maar het is niet zo'n groot probleem. Naarmate de industrie een beetje volwassener wordt, zul je zien dat het vermogensgedeelte een veel grotere factor wordt. Hoe voorkom je dat deze dingen smelten? Als je het twee keer zo groot kunt maken, zou je dat doen, maar nu wordt het één kilowatt en één kilowatt smelt het silicium.”

Dat brengt kosten met zich mee. Het beheer van het vermogen en de algehele thermische voetafdruk is belangrijk. Het is ook duur om het goed te doen, en nog erger om het fout te doen.

"We moeten ons zorgen maken over thermal runaway, en de mogelijkheid hebben om naar echte applicatieworkloads te kijken en ontwerpers te helpen die architectuurbeslissingen te nemen", voegde Gupta van Ansys eraan toe. “Stel dat je een AMD GPU hebt die bedoeld is voor het datacenter en die tientallen verschillende thermische sensoren heeft. Je kijkt naar een van de thermische sensoren en observeert de temperatuur. We weten dat GPU-prestaties worden beperkt door vermogen, maar wat betekent dat? Het betekent dat terwijl de GPU draait, en misschien een kind bijvoorbeeld een game-applicatie op de GPU draait, de temperatuur voor die dobbelsteen omhoog gaat. Zodra de thermische sensor die drempel detecteert - laten we zeggen dat het 100 ° C is - zal er logica nodig zijn om de frequentie van dat proces te verminderen. En omdat het die chip moet afkoelen om te kunnen functioneren en niet het thermische wegloopprobleem te veroorzaken, heeft de gebruiker op het moment dat de frequentie daalt een minder dan optimale ervaring. Ze kunnen het spel uitvoeren, alleen langzamer. Al deze bedrijven zijn dus erg gefocust op het vroegtijdig begrijpen van deze echte use-cases en het kunnen ontwerpen van de dynamische spannings- en frequentieschaling om hieraan tegemoet te komen, en om de thermische sensoren op de juiste locaties te plaatsen. Als u een datacenterchip met een capaciteit van een miljard exemplaren heeft, kunt u geen miljard thermische sensoren hebben. Dus waar plaats je die thermische sensoren? En wat zijn de thermische of stroomhotspots binnen het ontwerp?”

spot_img

VC Café

LifeSciVC

Laatste intelligentie

VC Café

LifeSciVC

spot_img