Zephyrnet-logotyp

Metas nästa generations AI-chip visar annonser samtidigt som du njuter av kraften

Datum:

Efter att ha retat sin andra generationens AI-accelerator i februari, är Meta redo att spilla bönorna på detta egenodlade kisel, som redan sägs driva annonsrekommendationer i 16 regioner.

Facebook goliath har designat anpassade acceleratorer för alla möjliga arbetsbelastningar, allt från videostreaming till maskininlärning för att driva rekommendationsmodellerna bakom sitt reklamimperium.

Smakämnen senaste tillskottet till Meta Training Inference Accelerator (MTIA)-familjen hävdar en 3x högre prestanda och en 1.5x strömeffektivitetsfördel jämfört med den första generationens del, som våra vänner på The Next Platform analyseras förra året.

Enligt Meta var andra generationens chip, som vi kommer att kalla MTIA v2 för konsekvensens skull, designat för att balansera beräkning, minneskapacitet och bandbredd för att få bästa möjliga prestanda för hyperscalerns interna ranknings- och rekommendationsmodeller .

När man gräver ner sig i designen har acceleratorn ett 8×8 rutnät av bearbetningselement (PE) som tillsammans erbjuder en 3.5x högre tät beräkningsprestanda eller 7x högre prestanda med sparsitet aktiverad jämfört med MTIA v1.

Metas AI-acceleratorer driver redan hyperscalerns ranknings- och rekommendationsmodeller

Metas senaste AI-accelerator, ovan, driver redan hyperscalerns ranknings- och rekommenderade modeller – Klicka för att förstora. Källa: Meta

Utöver att använda en mindre 5nm TSMC-processnod och öka klockhastigheten från 800MHz till 1.35GHz, noterar Meta flera arkitektoniska och designförbättringar som bidrog till den senaste delens prestandavinster. Dessa inkluderar stöd för sparsam beräkning, mer on-die och off-die-minne och ett uppgraderat nätverk-på-chip (NoC) med dubbelt så mycket bandbredd som den gamla modellen. Så här jämför den första och andra generationen:

  MTIA v1 MTIA v2
Processteknik 7 nm TSMC 5 nm TSMC
Dö området 373mm2 421mm2
PE: er 8 × 8 rutnät 8 × 8 rutnät
Klockfrekvens 800MHz 1.35GHz
INT8 perf 102 TOPS 354/708* TOPPAR
FP16/BF16 perf 51.2 TFLOPS 177/354* TFLOPS
PE mem 128KB per PE 384KB per PE
On-chip mem 128MB 256MB
Off-chip mem 64GB 128GB
Off-chip mem BW 176GB / s 204GB / s
Anslutningar 8x PCIe Gen 4.0 – 16GB/s 8x PCIe Gen 5.0 – 32GB/s
TDP 25W 90W

* Gles prestanda. Du kan hitta en fullständig uppdelning av båda markerna här..

Det bör noteras att MTIA v2 inte kommer att eliminera webbgoliatens behov av GPU:er. Meta-supremo Mark Zuckerberg har tidigare sagt sitt megabolag kommer att distribueras 350,000 100 Nvidia H600,000-acceleratorer och kommer att ha motsvarande 100 XNUMX HXNUMX i drift vid årets slut.

Istället följer MTIA ett allt mer välbekant mönster för Meta (och andra) att utveckla anpassat kisel skräddarsytt för specifika uppgifter. Tanken är att även om kitet kanske inte är lika flexibelt som processorer och grafikprocessorer, kan en ASIC när den distribueras i stor skala vara mer effektiv.

Medan det senaste chippet förbrukar nästan fyra gånger så mycket kraft som sin föregångare, kan det producera upp till 7x flyttalsprestanda. Mot en GPU klarar Metas senaste accelerator 7.8 TOPS per watt (TOPS/W), vilket som vi diskuteras i vår Blackwell-täckning slår Nvidias H100 SXM med 5.65 TOPS/W och är mer än dubbelt så mycket som A100 SXM med 3.12 TOPS/W.

Med det sagt är det uppenbart att Meta har gått långt för att anpassa chippet till dess interna arbetsbelastningar – nämligen att dra slutsatser om rekommendationsmodeller. Dessa är designade för att ge personliga förslag som personer du kanske känner eller, ännu viktigare för Metas affärsmodell, vilka annonser som troligen är relevanta för dig.

Chipsen är också designade för att skalas ut efter behov och kan användas i ett rackbaserat system som innehåller totalt 72 acceleratorer: Varje system kombinerar tre chassier som vart och ett innehåller 12 datorkort med två MTIA v2-chips per kort.

Varje MTIA v2-chassi innehåller 12 datorkort som vart och ett innehåller ett par acceleratorer

Varje MTIA v2-chassi innehåller 12 datorkort som var och en har ett par acceleratorer ... Klicka för att förstora. Källa: Meta.

När det gäller distribution av arbetsbelastningar, lutar Meta sig mycket mot PyTorch-ramverket och Triton-kompilatorn. Vi har sett denna kombination användas för att utföra uppgifter på olika GPU:er och acceleratorer, delvis för att den i stort sett eliminerar behovet av att utveckla kod optimerad för specifik hårdvara.

Meta, har varit en major förespråkare av PyTorch, som det utvecklade innan tyglarna överlämnades till Linux Foundation, eftersom det ger ingenjörer flexibiliteten att utveckla AI-applikationer som kan köras över en mängd olika GPU-hårdvara från Nvidia och AMD. Så det är logiskt att Meta skulle vilja använda samma teknik med sina egna chips.

Faktum är att Meta hävdar att genom att samutveckla sin mjukvara och hårdvara tillsammans kunde den uppnå större effektivitet jämfört med befintliga GPU-plattformar och förväntar sig att få ut ännu mer prestanda genom framtida optimeringar.

MTIA v2 kommer säkerligen inte att vara det sista kislet vi ser från Meta. Sociala mediejätten säger att den har flera chipdesignprogram på gång, inklusive ett som kommer att stödja framtida generativa AI-system. ®

plats_img

Senaste intelligens

plats_img