Zephyrnet-logo

Cisco en Nvidia breiden hun samenwerking uit om Ethernet in AI-netwerken te pushen

Datum:

Tijdens Cisco Live in Amsterdam dinsdag kondigde de enterprise-netwerkgigant in samenwerking met Nvidia een reeks hardware- en softwareplatforms aan, afgestemd op ieders favoriete modewoord van deze tijd: AL/ML.

Een belangrijk aandachtspunt van de samenwerking is het eenvoudiger maken van AI-systemen om te implementeren en te beheren met behulp van standaard Ethernet, iets waarvan we zeker weten dat iedereen die problemen heeft gehad met het verkrijgen van hun CCNA- en/of CCNP-certificaten dit zal waarderen.

Hoewel de GPU's die AI-clusters aandrijven de neiging hebben om het gesprek te domineren, kunnen de krachtige netwerken met lage latentie die nodig zijn om deze te ondersteunen behoorlijk complex zijn. Hoewel het waar is dat moderne GPU-nodes sterk profiteren van snelle 200Gb/s, 400Gb/s en binnenkort 800Gb/s-netwerken, is dit slechts een deel van de vergelijking, vooral als het om training gaat. Omdat deze werklasten vaak moeten worden verdeeld over meerdere servers met vier of acht GPU's, kan eventuele extra latentie leiden tot langere trainingstijd.

Hierdoor blijft Nvidia's InfiniBand de AI-netwerkimplementaties domineren. In een recent interview met bedrijfsanalist Sameh Boujelbene van de Dell'Oro Group geschat dat ongeveer 90 procent van de implementaties InfiniBand van Nvidia/Mellanox gebruikt – en niet Ethernet.

Dat wil niet zeggen dat Ethernet geen terrein wint. Opkomende technologieën, zoals smartNIC's en AI-geoptimaliseerde switch-ASIC's met diepe pakketbuffers, hebben bijgedragen aan het terugdringen van pakketverlies, waardoor Ethernet zich in ieder geval meer als InfiniBand gedraagt.

Cisco's Silicon One G200 switcht bijvoorbeeld ASIC, die wij keek afgelopen zomer beschikt het over een aantal functies die gunstig zijn voor AI-netwerken, waaronder geavanceerd congestiebeheer, packet-spraying-technieken en link failover. Maar het is belangrijk op te merken dat deze functies niet uniek zijn voor Cisco, en Nvidia en Broadcom hebben de afgelopen jaren beide vergelijkbare capabele switches aangekondigd.

Dell'Oro voorspelt dat de rol van Ethernet in AI-netwerken tegen 20 een omzetaandeel van ongeveer 2027 punten zal veroveren. Een van de redenen hiervoor is de bekendheid van de industrie met Ethernet. Hoewel AI-implementaties nog steeds specifieke afstemming vereisen, weten bedrijven al hoe ze een Ethernet-infrastructuur moeten implementeren en beheren.

Dit feit alleen al maakt samenwerkingen met netwerkleveranciers als Cisco een aantrekkelijk vooruitzicht voor Nvidia. Hoewel het de verkoop van Nvidia's eigen InfiniBand- of Spectrum Ethernet-switches kan verminderen, is de beloning de mogelijkheid om meer GPU's in handen te geven van bedrijven die anders misschien hadden geaarzeld bij het vooruitzicht om een ​​volledig afzonderlijke netwerkstack in te zetten.

Cisco speelt vanuit de zakelijke AI-invalshoek

Om deze inspanningen te ondersteunen, hebben Cisco en Nvidia referentieontwerpen en -systemen uitgerold, die tot doel hebben compatibiliteit te garanderen en kennislacunes te helpen aanpakken voor het inzetten van netwerk-, opslag- en computerinfrastructuur ter ondersteuning van hun AI-implementaties.

Deze referentieontwerpen zijn gericht op platforms waarin ondernemingen waarschijnlijk al hebben geïnvesteerd, waaronder pakketten van Pure Storage, NetApp en Red Hat. Het is niet verwonderlijk dat ze ook dienen om Cisco's GPU-versnelde systemen te stimuleren. Deze omvatten referentieontwerpen en automatiseringsscripts voor het toepassen van de FlexPod- en FlashStack-frameworks op AI-inferentie-workloads. Inferentie, vooral op kleine domeinspecifieke modellen, is dat wel verwacht door velen het grootste deel van de AI-implementaties in ondernemingen uitmaken, omdat ze relatief zuinig zijn in gebruik en training.

De FlashStack AI Cisco Verified Design (CVD) is in wezen een draaiboek voor hoe te implementeer Cisco's netwerk- en GPU-versnelde UCS-systemen naast de flash-opslagarrays van Pure Storage. De FlexPod AI (CVD) lijkt dat intussen wel te doen volgen een soortgelijk patroon, maar ruilt Pure in voor het opslagplatform van NetApp. Cisco zegt dat deze later deze maand klaar zullen zijn om uit te rollen, en dat er in de toekomst meer door Nvidia ondersteunde CVD's zullen komen.

Over Cisco's UCS-computerplatform gesproken: het netwerkplan heeft ook een edge-gerichte versie van zijn X-Series-bladesystemen uitgerold, die kan worden uitgerust met de nieuwste GPU's van Nvidia.

Het X Direct-chassis functionaliteiten acht slots die kunnen worden gevuld met een combinatie van dual- of quad-socket compute-blades, of PCIe-uitbreidingsnodes voor GPU-computing. Er kunnen ook extra X-Fabric-modules worden gebruikt om de GPU-capaciteit van het systeem uit te breiden.

Het is echter vermeldenswaard dat, in tegenstelling tot veel van de GPU-nodes die we hebben gezien van Supermicro, Dell, HPE en anderen, die de krachtigste SXM-modules van Nvidia gebruiken, Cisco's UCS X Direct-systeem alleen PCIe-gebaseerde GPU's met een lagere TDP lijkt te ondersteunen.

Volgens de datasheet kan elke server worden uitgerust met maximaal zes compacte GPU's per server, of maximaal twee dual-slot GPU's van volledige lengte en volledige hoogte.

Dit zal waarschijnlijk beperkend blijken voor degenen die enorme grote taalmodellen willen gebruiken die honderden gigabytes aan GPU-geheugen verbruiken. Het is echter waarschijnlijk meer dan voldoende voor het uitvoeren van kleinere werklasten voor gevolgtrekkingen, voor zaken als gegevensvoorverwerking aan de rand.

Cisco richt zich met het platform op de productiesector, de gezondheidszorg en bedrijven die kleine datacenters runnen. ®

spot_img

Laatste intelligentie

spot_img