Zephyrnet-logo

Heroverweging van het geheugen

Datum:

Experts aan tafel: Semiconductor Engineering sprak met Frank Ferro, groepsdirecteur productmanagement bij Cadans; Steven Woo, collega en vooraanstaande uitvinder bij Rambus; Jongsin Yun, geheugentechnoloog bij Siemens EDA; Randy White, programmamanager geheugenoplossingen bij Keysight Technologies; en Frank Schirrmeister, vice-president oplossingen en bedrijfsontwikkeling bij slagader. Wat volgt zijn fragmenten uit dat gesprek.

[L-R]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, sleutelzien; en Frank Schirrmeister, Arteris.

[L-R]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, sleutelzien; en Frank Schirrmeister, Arteris

SE: Welke configuraties moeten opnieuw worden bekeken nu we worstelen met AI/ML en de vraag naar stroom? Zullen we een verschuiving zien weg van de Von Neumann-architectuur?

Wauw: Op het gebied van systeemarchitecturen is er sprake van een tweedeling in de sector. De traditionele applicaties die de dominante werkpaarden zijn en die we in de cloud draaien op x86-gebaseerde servers, zullen niet verdwijnen. Er zijn decennia aan software die is opgebouwd en ontwikkeld, en die afhankelijk is van die architectuur om goed te presteren. AI/ML is daarentegen een nieuwe klasse. Mensen hebben de architecturen opnieuw bedacht en zeer domeinspecifieke processors gebouwd. We zien dat ongeveer twee derde van de energie wordt besteed aan het verplaatsen van de gegevens tussen een processor en een HBM-apparaat, terwijl slechts ongeveer een derde wordt besteed aan het daadwerkelijk toegang krijgen tot de bits in de DRAM-kernen. De databeweging is nu veel uitdagender en duurder. We zullen het geheugen niet kwijtraken. We hebben het nodig omdat de datasets steeds groter worden. De vraag is dus: ‘Wat is de juiste weg voor de toekomst?’ Er is veel discussie geweest over stapelen. Als we dat geheugen rechtstreeks op de processor plaatsen, doet het twee dingen voor je. Ten eerste wordt de bandbreedte tegenwoordig beperkt door de kust of de omtrek van de chip. Dat is waar de I/O's naartoe gaan. Maar als je het direct bovenop de processor zou stapelen, kun je nu gebruik maken van het hele gebied van de chip voor gedistribueerde verbindingen, en kun je meer bandbreedte in het geheugen zelf krijgen, en het kan rechtstreeks in het geheugen worden ingevoerd. de verwerker. De verbindingen worden een stuk korter en de energie-efficiëntie gaat waarschijnlijk in de orde van 5x tot 6x omhoog. Ten tweede gaat de hoeveelheid bandbreedte die je kunt krijgen vanwege de grotere array-interconnectie met het geheugen ook met een factor van meerdere gehele getallen omhoog. Door deze twee dingen samen te doen, kan er meer bandbreedte worden verkregen en wordt het energiezuiniger. De industrie evolueert naar wat de behoeften ook zijn, en dat is zeker een manier waarop we zullen zien dat geheugensystemen in de toekomst gaan evolueren om energiezuiniger te worden en meer bandbreedte te bieden.

Ijzer: Toen ik rond 2016 voor het eerst aan HBM begon te werken, vroegen enkele van de meer geavanceerde klanten of het gestapeld kon worden. Ze kijken al geruime tijd naar hoe ze de DRAM er bovenop kunnen stapelen, omdat er duidelijke voordelen zijn. Vanuit de fysieke laag wordt de PHY feitelijk verwaarloosbaar, wat veel kracht en efficiëntie bespaart. Maar nu heb je een processor van meerdere 100 W met daarbovenop een geheugen. Het geheugen kan de hitte niet verdragen. Het is waarschijnlijk de zwakste schakel in de warmteketen, wat een nieuwe uitdaging met zich meebrengt. Er zijn voordelen, maar ze moeten nog uitzoeken hoe ze met de thermiek moeten omgaan. Er is nu meer stimulans om dat type architectuur vooruit te helpen, omdat het u in het algemeen echt bespaart in termen van prestaties en kracht, en het uw computerefficiëntie zal verbeteren. Maar er zijn enkele fysieke ontwerpuitdagingen die moeten worden aangepakt. Zoals Steve zei: we zien allerlei soorten architecturen verschijnen. Ik ben het er volledig mee eens dat de GPU/CPU-architecturen nergens heen gaan, ze zullen nog steeds dominant zijn. Tegelijkertijd probeert elk bedrijf op de planeet een betere muizenval te bedenken om hun AI uit te voeren. We zien on-chip SRAM en combinaties van geheugen met hoge bandbreedte. LPDDR heeft de laatste tijd flink de kop opgestoken als het gaat om de manier waarop LPDDR in het datacenter kan worden benut vanwege de kracht. We hebben zelfs gezien dat GDDR wordt gebruikt in sommige AI-inferentietoepassingen, evenals in alle oude geheugensystemen. Ze proberen nu zoveel mogelijk DDR5’s op een footprint te persen. Ik heb elke architectuur gezien die je maar kunt bedenken, of het nu DDR, HBM, GDDR of andere is. Het hangt af van uw processorkern in termen van wat uw totale toegevoegde waarde is, en hoe u vervolgens uw specifieke architectuur kunt doorbreken. Het bijbehorende geheugensysteem, zodat u uw CPU en uw geheugenarchitectuur kunt vormgeven, afhankelijk van wat beschikbaar is.

En een: Een ander probleem is de niet-volatiliteit. Als de AI bijvoorbeeld te maken heeft met het stroominterval tussen het draaien van een IoT-gebaseerde AI, dan hebben we veel stroom nodig, en al deze informatie voor de AI-training moet steeds opnieuw roteren. Als we een soort oplossing hebben waarbij we die gewichten in de chip kunnen opslaan, zodat we niet altijd heen en weer hoeven te bewegen voor hetzelfde gewicht, dan zal dat een hoop energiebesparing opleveren, vooral voor op IoT gebaseerde AI. Er zal een andere oplossing zijn om aan de vraag naar energie te voldoen.

Schirrmeister: Wat ik fascinerend vind, vanuit een NoC-perspectief, is waar je deze paden moet optimaliseren, van een processor die door een NoC gaat, toegang krijgt tot een geheugeninterface en een controller die mogelijk via UCIe gaat om een ​​chiplet door te geven aan een andere chiplet, die dan geheugen in zich heeft. Het. Het is niet zo dat de Von Neumann-architecturen dood zijn. Maar er zijn tegenwoordig zoveel variaties, afhankelijk van de werklast die u wilt berekenen. Ze moeten worden beschouwd in de context van het geheugen, en geheugen is slechts één aspect. Waar haalt u de gegevens uit de datalocatie, hoe zijn deze in deze DRAM gerangschikt? We werken aan al deze dingen, zoals prestatieanalyse van herinneringen en vervolgens het optimaliseren van de systeemarchitectuur daarop. Het stimuleert veel innovatie voor nieuwe architecturen, waar ik nooit aan had gedacht toen ik op de universiteit over Von Neumann leerde. Aan de andere kant heb je zaken als meshes. Er zijn nu heel veel meer architecturen die in overweging moeten worden genomen, en deze worden aangedreven door de geheugenbandbreedte, rekenmogelijkheden, enzovoort, en groeien niet in hetzelfde tempo.

Wit: Er is een trend gaande waarbij sprake is van gedesaggregeerde rekenkracht of gedistribueerde rekenkracht, wat betekent dat de architect meer tools tot zijn beschikking moet hebben. De geheugenhiërarchie is uitgebreid. Er is semantiek inbegrepen, evenals CXL en verschillende hybride geheugens, die beschikbaar zijn voor flash en in DRAM. Een parallelle toepassing op het datacenter is de automobielsector. Automotive liet deze sensor altijd berekenen met ECU's (elektronische regeleenheden). Ik ben gefascineerd door hoe het is geëvolueerd naar het datacenter. Snel vooruit, en vandaag hebben we gedistribueerde rekenknooppunten, domeincontrollers genoemd. Het is hetzelfde. Het probeert aan te pakken dat kracht misschien niet zo'n groot probleem is omdat de schaal van computers niet zo groot is, maar latentie is zeker een groot probleem in de automobielsector. ADAS heeft superhoge bandbreedte nodig, en je hebt verschillende afwegingen. En dan heb je nog meer mechanische sensoren, maar vergelijkbare beperkingen in een datacenter. Je hebt koude opslag die geen lage latentie hoeft te hebben, en dan heb je nog andere toepassingen met hoge bandbreedte. Het is fascinerend om te zien hoezeer de tools en de opties voor de architect zijn geëvolueerd. De industrie heeft heel goed gereageerd en we bieden allemaal verschillende oplossingen die de markt voeden.

SE: Hoe zijn de geheugenontwerptools geëvolueerd?

Schirrmeister: Toen ik in de jaren negentig met mijn eerste paar chips begon, was Excel de meest gebruikte systeemtool. Sindsdien heb ik altijd gehoopt dat het op een gegeven moment kapot zou gaan vanwege de dingen die we doen op systeemniveau, geheugen, bandbreedteanalyse, enzovoort. Dit had nogal wat impact op mijn teams. Destijds was het zeer geavanceerd spul. Maar volgens Randy moeten bepaalde complexe dingen nu worden gesimuleerd op een niveau van betrouwbaarheid dat voorheen niet mogelijk was zonder de computer. Om een ​​voorbeeld te geven: het aannemen van een bepaalde latentie voor DRAM-toegang kan leiden tot slechte architectuurbeslissingen en mogelijk tot het verkeerd ontwerpen van datatransportarchitecturen op een chip. De keerzijde is ook waar. Als je altijd uitgaat van het slechtste geval, dan ontwerp je de architectuur te veel. Door tools te hebben die de DRAM- en prestatieanalyse uitvoeren, en door de juiste modellen beschikbaar te hebben voor de controllers, kan een architect alles simuleren, dat is een fascinerende omgeving om in te verkeren. Mijn hoop uit de jaren 90 dat Excel op een gegeven moment zou kunnen breken als een tool op systeemniveau zou wel eens werkelijkheid kunnen worden, omdat je bepaalde dynamische effecten niet meer in Excel kunt doen omdat je ze moet simuleren - vooral als je een die-to-die-interface met PHY-kenmerken toevoegt en vervolgens de laag koppelt Kenmerken zoals al het controleren of alles klopt en het eventueel opnieuw versturen van gegevens. Het niet uitvoeren van deze simulaties zal resulteren in een suboptimale architectuur.

Ijzer: De eerste stap bij de meeste evaluaties die we doen, is ze de geheugentestbank te geven om te kijken naar de DRAM-efficiëntie. Dat is een enorme stap, zelfs dingen doen die zo eenvoudig zijn als het uitvoeren van lokale tools om DRAM-simulatie uit te voeren, maar dan overgaan tot volledige simulaties. We zien dat steeds meer klanten om dat soort simulatie vragen. Ervoor zorgen dat uw DRAM-efficiëntie boven de 90 ligt, is een zeer belangrijke eerste stap bij elke evaluatie.

Wauw: Een deel van de reden waarom je de opkomst van volledige systeemsimulatietools ziet, is dat DRAM's veel gecompliceerder zijn geworden. Het is nu erg moeilijk om zelfs maar aan de bar te staan ​​voor sommige van deze complexe werklasten met behulp van eenvoudige tools zoals Excel. Als je naar de datasheet voor DRAM in de jaren '90 kijkt, waren die datasheets ongeveer 40 pagina's. Nu zijn het honderden pagina's. Dat spreekt alleen maar over de complexiteit van het apparaat om de hoge bandbreedtes eruit te halen. Je koppelt dat aan het feit dat geheugen zo'n bepalende factor is in de systeemkosten, evenals in de bandbreedte en latentie die verband houden met de prestaties van de processor. Het is ook een grote krachtbron, dus je moet nu op een veel gedetailleerder niveau simuleren. Wat de toolflow betreft, begrijpen systeemarchitecten dat geheugen een grote drijfveer is. De tools moeten dus geavanceerder zijn en een goede interface met andere tools hebben, zodat de systeemarchitect het beste globale beeld krijgt van wat er aan de hand is, vooral van de manier waarop het geheugen het systeem beïnvloedt.

En een: Nu we het AI-tijdperk binnengaan, worden er veel multi-coresystemen gebruikt, maar we weten niet welke gegevens waar naartoe gaan. Het gaat ook meer parallel aan de chip. De grootte van het geheugen is een stuk groter. Als we AI van het ChatGPT-type gebruiken, vereist de gegevensverwerking voor de modellen ongeveer 350 MB aan gegevens, wat een enorme hoeveelheid gegevens is alleen al voor een gewicht, en de daadwerkelijke invoer/uitvoer is veel groter. Die toename van de hoeveelheid benodigde gegevens betekent dat er veel probabilistische effecten zijn die we nog niet eerder hebben gezien. Het is een uiterst uitdagende test om alle fouten te zien die verband houden met deze grote hoeveelheid geheugen. En ECC wordt overal gebruikt, zelfs in SRAM, dat traditioneel geen ECC gebruikte, maar nu heel gebruikelijk is voor de grootste systemen. Het testen hiervan is een hele uitdaging en moet worden ondersteund door EDA-oplossingen om al die verschillende omstandigheden te testen.

SE: Met welke uitdagingen worden technische teams dagelijks geconfronteerd?

Wit: Op een willekeurige dag kun je mij in het lab vinden. Ik stroop mijn mouwen op en ik heb mijn handen vuil, door draden te prikken, te solderen en zo. Ik denk veel na over post-siliciumvalidatie. We hadden het over vroege simulatie- en on-die-tools – BiST, en dat soort dingen. Uiteindelijk willen we, voordat we verzenden, een vorm van systeemvalidatie of tests op apparaatniveau uitvoeren. We spraken over hoe we de geheugenmuur kunnen overwinnen. We co-lokaliseren geheugen, HBM, dat soort dingen. Als we kijken naar de evolutie van de verpakkingstechnologie, zijn we begonnen met loodhoudende verpakkingen. Ze waren niet erg goed voor de signaalintegriteit. Tientallen jaren later zijn we overgestapt op geoptimaliseerde signaalintegriteit, zoals ball grid arrays (BGA's). Wij hadden daar geen toegang toe, wat betekende dat je het niet kon testen. Dus bedachten we dit concept, genaamd device interposer – een BGA-interposer – en dat stelde ons in staat een speciaal armatuur in te bouwen dat signalen naar buiten leidde. Dan konden we hem aansluiten op de testapparatuur. Snel vooruit naar vandaag, en nu hebben we HBM en chiplets. Hoe plaats ik mijn armatuur ertussen op de siliconen interposer? Dat kunnen we niet, en dat is de strijd. Het is een uitdaging die mij 's nachts wakker houdt. Hoe voeren we faalanalyses uit in het veld bij een OEM- of systeemklant, waar ze niet de 90% efficiëntie halen. Er zitten meer fouten in de link, ze kunnen niet goed initialiseren en de training werkt niet. Is het een systeemintegriteitsprobleem?

Schirrmeister: Zou je dit niet liever vanuit huis doen met een virtuele interface dan dat je naar het lab loopt? Is het antwoord niet meer analyse die je in de chip inbouwt? Met chiplets integreren we alles nog verder. Je soldeerbout erin stoppen is niet echt een optie, dus er moet een manier zijn voor analyse op de chip. We hebben hetzelfde probleem voor de NoC. Mensen kijken naar de NoC, en je verzendt de gegevens en dan is het weg. We hebben de analyses nodig zodat mensen fouten kunnen opsporen, en dat strekt zich uit tot op productieniveau, zodat je eindelijk vanuit huis kunt werken en het allemaal kunt doen op basis van chipanalyses.

Ijzer: Vooral met geheugen met hoge bandbreedte kun je daar fysiek niet binnenkomen. Als we de PHY in licentie geven, hebben we ook een product dat daarbij hoort, zodat je elk van die 1,024 bits kunt bekijken. U kunt beginnen met het lezen en schrijven van DRAM vanuit de tool, zodat u daar niet fysiek naar binnen hoeft te gaan. Ik hou van het idee van de tussenpersoon. Tijdens het testen halen we enkele pinnen uit de interposer, wat je in het systeem niet kunt doen. Het is echt een uitdaging om in deze 3D-systemen te komen. Zelfs vanuit het oogpunt van de ontwerptoolflow lijkt het erop dat de meeste bedrijven hun eigen individuele flow uitvoeren met veel van deze 2.5D-tools. We beginnen een meer gestandaardiseerde manier samen te stellen om een ​​2.5D-systeem te bouwen, van signaalintegriteit, vermogen en de hele stroom.

Wit: Naarmate de zaken verder evolueren, hoop ik dat we nog steeds hetzelfde nauwkeurigheidsniveau kunnen handhaven. Ik zit in de UCIe-vormfactorcompliancegroep. Ik kijk hoe ik een bekende goede dobbelsteen, een gouden dobbelsteen, kan karakteriseren. Uiteindelijk zal dit veel meer tijd vergen, maar we zullen een gulden middenweg vinden tussen de prestaties en nauwkeurigheid van de tests die we nodig hebben, en de ingebouwde flexibiliteit.

Schirrmeister: Als ik chiplets en hun adoptie in een meer open productieomgeving bekijk, is testen een van de grotere uitdagingen om het goed te laten werken. Als ik een groot bedrijf ben en alle kanten ervan onder controle heb, kan ik de zaken op de juiste manier beperken, zodat testen enzovoort haalbaar wordt. Als ik de UCIe-slogan wil volgen dat UCI slechts één letter verwijderd is van PCI, en ik stel me een toekomst voor waarin UCIe-assemblage, vanuit productieperspectief, wordt zoals PCI-slots in een pc vandaag de dag, dan zijn de testaspecten daarvoor echt uitdagend. We moeten een oplossing vinden. Er is veel werk te doen.

spot_img

Laatste intelligentie

spot_img