Zephyrnet-Logo

Der KI-Chip der nächsten Generation von Meta liefert Werbung und verbraucht gleichzeitig Strom

Datum:

Nachdem Meta im Februar seinen KI-Beschleuniger der zweiten Generation vorgestellt hat, ist es nun bereit, die Öffentlichkeit über dieses selbst entwickelte Silizium zu informieren, das angeblich bereits in 16 Regionen für Werbeempfehlungen sorgt.

Der Facebook-Gigant hat benutzerdefinierte Beschleuniger für alle Arten von Arbeitslasten entwickelt, von Video-Streaming bis hin zu maschinellem Lernen, um die Empfehlungsmodelle hinter seinem Werbeimperium voranzutreiben.

Das neueste Ergänzung zur Meta Training Inference Accelerator (MTIA)-Familie behauptet eine 3-mal höhere Leistung und einen 1.5-fachen Energieeffizienzvorteil gegenüber dem Teil der ersten Generation, den unsere Freunde von The Next Platform haben analysiert letztes Jahr.

Laut Meta wurde der Chip der zweiten Generation, den wir der Konsistenz halber MTIA v2 nennen werden, so konzipiert, dass er Rechenleistung, Speicherkapazität und Bandbreite in Einklang bringt, um die bestmögliche Leistung für die internen Ranking- und Empfehlungsmodelle des Hyperscalers zu erzielen .

Wenn man sich das Design genauer ansieht, verfügt der Beschleuniger über ein 8×8-Raster von Verarbeitungselementen (PEs), die zusammen eine 3.5-mal höhere Rechenleistung bei dichter Dichte oder eine 7-mal höhere Leistung bei aktivierter Sparsity im Vergleich zu MTIA v1 bieten.

Die KI-Beschleuniger von Meta unterstützen bereits die Ranking- und Empfehlungsmodelle des Hyperscalers

Metas neuester KI-Beschleuniger (siehe oben) unterstützt bereits die Ranking- und Empfehlungsmodelle des Hyperscalers – zum Vergrößern anklicken. Quelle: Meta

Neben der Verwendung eines kleineren 5-nm-TSMC-Prozessknotens und der Erhöhung der Taktrate von 800 MHz auf 1.35 GHz weist Meta auf mehrere Architektur- und Designverbesserungen hin, die zu den Leistungssteigerungen des neuesten Teils beigetragen haben. Dazu gehören die Unterstützung für Sparse-Computing, mehr On-Die- und Off-Die-Speicher sowie ein verbessertes Network-on-Chip (NoC) mit der doppelten Bandbreite des alten Modells. So vergleichen sich die erste und zweite Generation:

  MTIA v1 MTIA v2
Prozesstechn 7 nm TSMC 5 nm TSMC
Sterben Bereich 373 mm2 421 mm2
PEs 8 × 8 Raster 8 × 8 Raster
Taktfrequenz 800MHz 1.35GHz
INT8 perf 102 TOPS 354/708* OBERTEILE
FP16/BF16 perf 51.2 TFLOPS 177/354* TFLOPS
PE-Mem 128 KB pro PE 384 KB pro PE
On-Chip-Speicher 128MB 256MB
Off-Chip-Speicher 64GB 128GB
Off-Chip-Mem BW 176GB / s 204GB / s
Konnektivität 8x PCIe Gen 4.0 – 16 GB/s 8x PCIe Gen 5.0 – 32 GB/s
TDP 25W 90W

* Geringe Leistung. Eine vollständige Aufschlüsselung beider Chips finden Sie hier hier.

Es sollte beachtet werden, dass MTIA v2 den Bedarf des Web-Goliaths an GPUs nicht beseitigen wird. Meta-Supremo Mark Zuckerberg hat zuvor seinen Megakonzern erklärt wird bereitstellen 350,000 Nvidia H100-Beschleuniger und bis zum Jahresende werden umgerechnet 600,000 H100 in Betrieb sein.

Stattdessen folgt MTIA einem für Meta (und andere) immer vertrauteren Muster der Entwicklung maßgeschneiderter, auf bestimmte Aufgaben zugeschnittener Chips. Die Idee dahinter ist, dass das Kit zwar möglicherweise nicht so flexibel ist wie CPUs und GPUs, ein ASIC jedoch bei maßstabsgetreuem Einsatz effizienter sein kann.

Während der neueste Chip fast viermal so viel Strom verbraucht wie sein Vorgänger, ist er in der Lage, die bis zu siebenfache Gleitkommaleistung zu erzielen. Im Vergleich zu einer GPU schafft der neueste Beschleuniger von Meta 7 TOPS pro Watt (TOPS/W), was unserer Meinung nach der Fall ist diskutiert In unserer Blackwell-Berichterstattung schlägt es Nvidias H100 SXM mit 5.65 TOPS/W und ist mit 100 TOPS/W mehr als doppelt so hoch wie das A3.12 SXM.

Dennoch ist klar, dass Meta große Anstrengungen unternommen hat, um den Chip an seine internen Arbeitslasten anzupassen – insbesondere Rückschlüsse auf Empfehlungsmodelle zu ziehen. Diese dienen dazu, personalisierte Vorschläge zu machen, beispielsweise zu Personen, die Sie vielleicht kennen, oder, was für das Geschäftsmodell von Meta noch wichtiger ist, welche Anzeigen für Sie am wahrscheinlichsten relevant sind.

Die Chips sind außerdem so konzipiert, dass sie je nach Bedarf skaliert werden können, und können in einem Rack-basierten System mit insgesamt 72 Beschleunigern eingesetzt werden: Jedes System kombiniert drei Gehäuse mit jeweils 12 Rechenplatinen mit zwei MTIA v2-Chips pro Platine.

Jedes MTIA v2-Gehäuse enthält 12 Rechenplatinen mit jeweils einem Beschleunigerpaar

Jedes MTIA v2-Gehäuse enthält 12 Rechenplatinen mit jeweils einem Paar Beschleunigern … Zum Vergrößern anklicken. Quelle: Meta.

Bei der Bereitstellung von Workloads stützt sich Meta stark auf das PyTorch-Framework und den Triton-Compiler. Wir haben gesehen, dass diese Kombination zur Ausführung von Aufgaben auf verschiedenen GPUs und Beschleunigern verwendet wird, teilweise weil dadurch die Notwendigkeit, für bestimmte Hardware optimierten Code zu entwickeln, weitgehend entfällt.

Meta war ein Hauptfach Befürworter von PyTorch, das es entwickelte, bevor es die Zügel an die Linux Foundation übergab, da es Ingenieuren die Flexibilität gibt, KI-Anwendungen zu entwickeln, die auf einer Vielzahl von GPU-Hardware von Nvidia und AMD ausgeführt werden können. Es macht also Sinn, dass Meta die gleichen Technologien auch bei seinen eigenen Chips einsetzen möchte.

Tatsächlich behauptet Meta, dass es durch die gemeinsame Entwicklung seiner Software und Hardware eine höhere Effizienz im Vergleich zu bestehenden GPU-Plattformen erzielen konnte und erwartet, durch zukünftige Optimierungen noch mehr Leistung zu erzielen.

MTIA v2 wird sicherlich nicht das letzte Silizium sein, das wir von Meta sehen. Der Social-Media-Riese gibt an, mehrere Chip-Design-Programme im Gange zu haben, darunter eines, das zukünftige generative KI-Systeme unterstützen wird. ®

spot_img

VC-Café

VC-Café

Neueste Intelligenz

spot_img