Zephyrnet-logo

Meta's AI-chip van de volgende generatie serveert advertenties terwijl hij stroom drinkt

Datum:

Na in februari zijn tweede generatie AI-versneller te hebben geplaagd, is Meta klaar om de bonen te verspillen aan dit silicium van eigen bodem, dat naar verluidt al advertentie-aanbevelingen in 16 regio's aanstuurt.

De Facebook-goliath heeft aangepaste accelerators ontworpen voor allerlei soorten workloads, variërend van videostreaming tot machine learning, om de aanbevelingsmodellen achter zijn advertentie-imperium aan te sturen.

De laatste toevoeging aan de Meta Training Inference Accelerator (MTIA)-familie claimt een 3x hogere prestatie en een 1.5x energie-efficiëntievoordeel ten opzichte van het eerste generatie-onderdeel, dat onze vrienden bij The Next Platform geanalyseerd vorig jaar.

Volgens Meta is de chip van de tweede generatie, die we omwille van de consistentie MTIA v2 gaan noemen, ontworpen om rekenkracht, geheugencapaciteit en bandbreedte in evenwicht te brengen om de best mogelijke prestaties te krijgen voor de interne ranking- en aanbevelingsmodellen van de hyperscaler. .

Als we dieper ingaan op het ontwerp, beschikt de accelerator over een 8x8 raster van verwerkingselementen (PE's) die samen 3.5x hogere rekenprestaties bieden of 7x hogere prestaties met ingeschakelde sparsity vergeleken met MTIA v1.

De AI-versnellers van Meta voeden al de ranking- en aanbevelingsmodellen van de hyperscaler

Meta's nieuwste AI-versneller, hierboven, drijft nu al de ranking- en aanbevelingsmodellen van de hyperscaler aan – klik om te vergroten. Bron: Meta

Naast het gebruik van een kleiner 5 nm TSMC-procesknooppunt en het verhogen van de kloksnelheid van 800 MHz naar 1.35 GHz, merkt Meta verschillende architectonische en ontwerpverbeteringen op die hebben bijgedragen aan de prestatieverbeteringen van het nieuwste onderdeel. Deze omvatten ondersteuning voor spaarzame berekeningen, meer on-die en off-die geheugen, en een geüpgraded netwerk-op-chip (NoC) met tweemaal de bandbreedte van het oude model. Zo vergelijken de eerste en tweede generatie:

  MTIA v1 MTIA v2
Procestechniek 7 nm TSMC 5 nm TSMC
sterven gebied 373mm2 421mm2
PE's 8 × 8 raster 8 × 8 raster
Kloksnelheid 800MHz 1.35GHz
INT8 prestatie 102 TOPS 354/708* TOPS
FP16/BF16 prestatie 51.2 TFLOPS 177/354* TFLOPS
PE-mem 128 KB per PE 384 KB per PE
Op chip mem 128MB 256MB
Off-chip mem 64GB 128GB
Off-chip geheugen BW 176GB / s 204GB / s
Connectiviteit 8x PCIe Gen 4.0 – 16 GB/s 8x PCIe Gen 5.0 – 32 GB/s
TDP 25W 90W

* Schaarse prestaties. Je kunt een volledig overzicht van beide chips vinden hier.

Opgemerkt moet worden dat de MTIA v2 de behoefte van de webgoliath aan GPU's niet zal wegnemen. Meta supremo Mark Zuckerberg heeft eerder zijn megabedrijf genoemd zal inzetten 350,000 Nvidia H100-accelerators en tegen het einde van het jaar zal het equivalent van 600,000 H100's operationeel zijn.

In plaats daarvan volgt MTIA een steeds bekender patroon voor Meta (en anderen) van het ontwikkelen van op maat gemaakt silicium dat is afgestemd op specifieke taken. Het idee is dat, hoewel de kit misschien niet zo flexibel is als CPU's en GPU's, een ASIC, wanneer deze op schaal wordt ingezet, efficiënter kan zijn.

Hoewel de nieuwste chip bijna vier keer zoveel stroom verbruikt als zijn voorganger, is hij in staat tot zeven keer zoveel drijvende-kommaprestaties te leveren. Tegenover een GPU beheert Meta's nieuwste accelerator 7 TOPS per watt (TOPS/W), wat volgens ons besproken in onze Blackwell-dekking verslaat Nvidia's H100 SXM met 5.65 TOPS/W en is meer dan tweemaal zo groot als de A100 SXM met 3.12 TOPS/W.

Dat gezegd hebbende, is het duidelijk dat Meta zich tot het uiterste heeft ingespannen om de chip af te stemmen op zijn interne werkbelasting, namelijk door gevolgtrekkingen te maken op aanbevelingsmodellen. Deze zijn ontworpen om gepersonaliseerde suggesties te geven, zoals mensen die u mogelijk kent of, nog belangrijker voor Meta's bedrijfsmodel, welke advertenties het meest waarschijnlijk relevant voor u zijn.

De chips zijn ook ontworpen om naar behoefte uit te schalen en kunnen worden ingezet in een rackgebaseerd systeem met in totaal 72 accelerators: elk systeem combineert drie chassis met elk 12 computerborden met twee MTIA v2-chips per bord.

Elk MTIA v2-chassis bevat 12 computerborden die elk een paar versnellers bevatten

Elk MTIA v2-chassis bevat 12 computerborden, elk met een paar versnellers … Klik om te vergroten. Bron: Meta.

Wat het inzetten van werklasten betreft, leunt Meta zwaar op het PyTorch-framework en de Triton-compiler. We hebben gezien dat deze combinatie wordt gebruikt om taken uit te voeren op verschillende GPU's en accelerators, deels omdat het grotendeels de noodzaak elimineert om code te ontwikkelen die is geoptimaliseerd voor specifieke hardware.

Meta, is een majoor geweest voorstander van PyTorch, dat het ontwikkelde voordat het de teugels overdroeg aan de Linux Foundation, omdat het ingenieurs de flexibiliteit geeft om AI-applicaties te ontwikkelen die op een verscheidenheid aan GPU-hardware van Nvidia en AMD kunnen draaien. Het is dus logisch dat Meta dezelfde technologieën met zijn eigen chips zou willen gebruiken.

Meta beweert zelfs dat het door de software en hardware samen te ontwikkelen een grotere efficiëntie heeft kunnen bereiken in vergelijking met bestaande GPU-platforms en verwacht door toekomstige optimalisaties nog meer prestaties te kunnen behalen.

MTIA v2 zal zeker niet het laatste silicium zijn dat we van Meta zien. De socialemediagigant zegt dat er verschillende chipontwerpprogramma's aan de gang zijn, waaronder een programma dat toekomstige generatieve AI-systemen zal ondersteunen. ®

spot_img

Laatste intelligentie

spot_img