Logo Zephyrnet

Il chip AI di nuova generazione di Meta pubblica annunci pubblicitari mentre consuma energia

Data:

Dopo aver presentato in anteprima il suo acceleratore AI di seconda generazione a febbraio, Meta è pronta a svelare i segreti di questo silicio nostrano, che si dice stia già alimentando raccomandazioni pubblicitarie in 16 regioni.

Il colosso di Facebook ha progettato acceleratori personalizzati per tutti i tipi di carichi di lavoro, dallo streaming video al machine learning, per guidare i modelli di raccomandazione dietro il suo impero pubblicitario.

I ultima aggiunta alla famiglia Meta Training Inference Accelerator (MTIA) vanta prestazioni 3 volte più elevate e un vantaggio in termini di efficienza energetica 1.5 volte rispetto alla parte di prima generazione, che i nostri amici di The Next Platform analizzato l'anno scorso.

Secondo Meta, il chip di seconda generazione, che chiameremo MTIA v2 per motivi di coerenza, è stato progettato per bilanciare calcolo, capacità di memoria e larghezza di banda per ottenere le migliori prestazioni possibili per il ranking interno e i modelli di raccomandazione dell'hyperscaler. .

Analizzando il design, l'acceleratore presenta una griglia 8×8 di elementi di elaborazione (PE) che insieme offrono prestazioni di calcolo denso 3.5 volte più elevate o prestazioni 7 volte più elevate con la scarsità abilitata rispetto a MTIA v1.

Gli acceleratori IA di Meta stanno già alimentando i modelli di classificazione e raccomandazione dell'iperscaler

L'ultimo acceleratore AI di Meta, sopra, sta già alimentando i modelli di classificazione e raccomandazione dell'iperscaler – Clicca per ingrandire. Fonte: Meta

Oltre a utilizzare un nodo di processo TSMC più piccolo da 5 nm e ad aumentare la velocità di clock da 800 MHz a 1.35 GHz, Meta nota diversi miglioramenti dell'architettura e del design che hanno contribuito ai miglioramenti delle prestazioni dell'ultimo componente. Questi includono il supporto per il calcolo sparso, più memoria on-die e off-die e un network-on-chip (NoC) aggiornato con il doppio della larghezza di banda del vecchio modello. Ecco come si confrontano la prima e la seconda generazione:

  MTIA v1 MTIA v2
Tecnologia di processo TSMC a 7 nm TSMC a 5 nm
Zona di morte 373mm2 421mm2
PE Griglia 8×8 Griglia 8×8
Velocità dell'orologio 800MHz 1.35GHz
INT8 perf 102 TOP 354/708* PIANI
FP16/BF16 perf 51.2 TFLOPS 177/354* TFLOP
PE memoria 128KB per PE 384KB per PE
Memoria su chip 128MB 256MB
Memoria fuori chip 64GB 128GB
Memoria fuori chip BW 176GB / s 204GB / s
Connettività 8 PCIe Gen 4.0 – 16 GB/s 8 PCIe Gen 5.0 – 32 GB/s
TDP 25W 90W

* Prestazioni scarse. Puoi trovare una ripartizione completa di entrambi i chip qui.

Va notato che MTIA v2 non eliminerà la necessità di GPU da parte del colosso del web. Il meta supremo Mark Zuckerberg ha già detto in precedenza la sua mega-corporazione si schiererà 350,000 acceleratori Nvidia H100 e avranno l'equivalente di 600,000 H100 operativi entro la fine dell'anno.

Invece, MTIA segue un modello sempre più familiare per Meta (e altri) di sviluppo di silicio personalizzato su misura per compiti specifici. L'idea è che, sebbene il kit possa non essere flessibile come CPU e GPU, un ASIC se distribuito su larga scala può essere più efficiente.

Sebbene l'ultimo chip consumi quasi quattro volte la potenza del suo predecessore, è in grado di produrre fino a 7 volte le prestazioni in virgola mobile. Confrontato con una GPU, l'ultimo acceleratore di Meta gestisce 7.8 TOPS per watt (TOPS/W), che come abbiamo discusso nella nostra copertura Blackwell, batte l'H100 SXM di Nvidia a 5.65 TOPS/W ed è più del doppio di quello dell'A100 SXM a 3.12 TOPS/W.

Detto questo, è chiaro che Meta ha fatto di tutto per adattare il chip ai suoi carichi di lavoro interni, ovvero facendo inferenze sui modelli di raccomandazione. Questi sono progettati per fornire suggerimenti personalizzati come le persone che potresti conoscere o, cosa ancora più importante per il modello di business di Meta, quali annunci sono più probabilmente rilevanti per te.

I chip sono inoltre progettati per essere scalabili secondo necessità e possono essere distribuiti in un sistema basato su rack contenente 72 acceleratori in totale: ogni sistema combina tre chassis contenenti ciascuno 12 schede di elaborazione con due chip MTIA v2 per scheda.

Ogni chassis MTIA v2 contiene 12 schede di elaborazione, ciascuna contenente una coppia di acceleratori

Ogni chassis MTIA v2 contiene 12 schede di elaborazione, ciascuna dotata di una coppia di acceleratori... Fare clic per ingrandire. Fonte: Meta.

In termini di distribuzione dei carichi di lavoro, Meta si appoggia fortemente al framework PyTorch e al compilatore Triton. Abbiamo visto questa combinazione utilizzata per eseguire attività su varie GPU e acceleratori, in parte perché elimina in gran parte la necessità di sviluppare codice ottimizzato per hardware specifico.

Meta, è stato un importante proponente di PyTorch, che ha sviluppato prima di cedere le redini alla Linux Foundation, in quanto offre agli ingegneri la flessibilità di sviluppare applicazioni AI che possono essere eseguite su una varietà di hardware GPU di Nvidia e AMD. Quindi è logico che Meta voglia utilizzare le stesse tecnologie con i propri chip.

Infatti, Meta afferma che co-sviluppando insieme software e hardware è stata in grado di ottenere una maggiore efficienza rispetto alle piattaforme GPU esistenti e prevede di ottenere prestazioni ancora maggiori attraverso ottimizzazioni future.

MTIA v2 non sarà certamente l'ultimo silicio che vedremo da Meta. Il colosso dei social media afferma di avere in corso diversi programmi di progettazione di chip, incluso uno che supporterà i futuri sistemi di intelligenza artificiale generativa. ®

spot_img

L'ultima intelligenza

spot_img