Na in februari zijn tweede generatie AI-versneller te hebben geplaagd, is Meta klaar om de bonen te verspillen aan dit silicium van eigen bodem, dat naar verluidt al advertentie-aanbevelingen in 16 regio's aanstuurt.
De Facebook-goliath heeft aangepaste accelerators ontworpen voor allerlei soorten workloads, variërend van videostreaming tot machine learning, om de aanbevelingsmodellen achter zijn advertentie-imperium aan te sturen.
De laatste toevoeging aan de Meta Training Inference Accelerator (MTIA)-familie claimt een 3x hogere prestatie en een 1.5x energie-efficiëntievoordeel ten opzichte van het eerste generatie-onderdeel, dat onze vrienden bij The Next Platform geanalyseerd vorig jaar.
Volgens Meta is de chip van de tweede generatie, die we omwille van de consistentie MTIA v2 gaan noemen, ontworpen om rekenkracht, geheugencapaciteit en bandbreedte in evenwicht te brengen om de best mogelijke prestaties te krijgen voor de interne ranking- en aanbevelingsmodellen van de hyperscaler. .
Als we dieper ingaan op het ontwerp, beschikt de accelerator over een 8x8 raster van verwerkingselementen (PE's) die samen 3.5x hogere rekenprestaties bieden of 7x hogere prestaties met ingeschakelde sparsity vergeleken met MTIA v1.
Meta's nieuwste AI-versneller, hierboven, drijft nu al de ranking- en aanbevelingsmodellen van de hyperscaler aan – klik om te vergroten. Bron: Meta
Naast het gebruik van een kleiner 5 nm TSMC-procesknooppunt en het verhogen van de kloksnelheid van 800 MHz naar 1.35 GHz, merkt Meta verschillende architectonische en ontwerpverbeteringen op die hebben bijgedragen aan de prestatieverbeteringen van het nieuwste onderdeel. Deze omvatten ondersteuning voor spaarzame berekeningen, meer on-die en off-die geheugen, en een geüpgraded netwerk-op-chip (NoC) met tweemaal de bandbreedte van het oude model. Zo vergelijken de eerste en tweede generatie:
MTIA v1 | MTIA v2 | |
---|---|---|
Procestechniek | 7 nm TSMC | 5 nm TSMC |
sterven gebied | 373mm2 | 421mm2 |
PE's | 8 × 8 raster | 8 × 8 raster |
Kloksnelheid | 800MHz | 1.35GHz |
INT8 prestatie | 102 TOPS | 354/708* TOPS |
FP16/BF16 prestatie | 51.2 TFLOPS | 177/354* TFLOPS |
PE-mem | 128 KB per PE | 384 KB per PE |
Op chip mem | 128MB | 256MB |
Off-chip mem | 64GB | 128GB |
Off-chip geheugen BW | 176GB / s | 204GB / s |
Connectiviteit | 8x PCIe Gen 4.0 – 16 GB/s | 8x PCIe Gen 5.0 – 32 GB/s |
TDP | 25W | 90W |
* Schaarse prestaties. Je kunt een volledig overzicht van beide chips vinden hier.
Opgemerkt moet worden dat de MTIA v2 de behoefte van de webgoliath aan GPU's niet zal wegnemen. Meta supremo Mark Zuckerberg heeft eerder zijn megabedrijf genoemd zal inzetten 350,000 Nvidia H100-accelerators en tegen het einde van het jaar zal het equivalent van 600,000 H100's operationeel zijn.
In plaats daarvan volgt MTIA een steeds bekender patroon voor Meta (en anderen) van het ontwikkelen van op maat gemaakt silicium dat is afgestemd op specifieke taken. Het idee is dat, hoewel de kit misschien niet zo flexibel is als CPU's en GPU's, een ASIC, wanneer deze op schaal wordt ingezet, efficiënter kan zijn.
Hoewel de nieuwste chip bijna vier keer zoveel stroom verbruikt als zijn voorganger, is hij in staat tot zeven keer zoveel drijvende-kommaprestaties te leveren. Tegenover een GPU beheert Meta's nieuwste accelerator 7 TOPS per watt (TOPS/W), wat volgens ons besproken in onze Blackwell-dekking verslaat Nvidia's H100 SXM met 5.65 TOPS/W en is meer dan tweemaal zo groot als de A100 SXM met 3.12 TOPS/W.
Dat gezegd hebbende, is het duidelijk dat Meta zich tot het uiterste heeft ingespannen om de chip af te stemmen op zijn interne werkbelasting, namelijk door gevolgtrekkingen te maken op aanbevelingsmodellen. Deze zijn ontworpen om gepersonaliseerde suggesties te geven, zoals mensen die u mogelijk kent of, nog belangrijker voor Meta's bedrijfsmodel, welke advertenties het meest waarschijnlijk relevant voor u zijn.
De chips zijn ook ontworpen om naar behoefte uit te schalen en kunnen worden ingezet in een rackgebaseerd systeem met in totaal 72 accelerators: elk systeem combineert drie chassis met elk 12 computerborden met twee MTIA v2-chips per bord.
Elk MTIA v2-chassis bevat 12 computerborden, elk met een paar versnellers … Klik om te vergroten. Bron: Meta.
Wat het inzetten van werklasten betreft, leunt Meta zwaar op het PyTorch-framework en de Triton-compiler. We hebben gezien dat deze combinatie wordt gebruikt om taken uit te voeren op verschillende GPU's en accelerators, deels omdat het grotendeels de noodzaak elimineert om code te ontwikkelen die is geoptimaliseerd voor specifieke hardware.
Meta, is een majoor geweest voorstander van PyTorch, dat het ontwikkelde voordat het de teugels overdroeg aan de Linux Foundation, omdat het ingenieurs de flexibiliteit geeft om AI-applicaties te ontwikkelen die op een verscheidenheid aan GPU-hardware van Nvidia en AMD kunnen draaien. Het is dus logisch dat Meta dezelfde technologieën met zijn eigen chips zou willen gebruiken.
Meta beweert zelfs dat het door de software en hardware samen te ontwikkelen een grotere efficiëntie heeft kunnen bereiken in vergelijking met bestaande GPU-platforms en verwacht door toekomstige optimalisaties nog meer prestaties te kunnen behalen.
MTIA v2 zal zeker niet het laatste silicium zijn dat we van Meta zien. De socialemediagigant zegt dat er verschillende chipontwerpprogramma's aan de gang zijn, waaronder een programma dat toekomstige generatieve AI-systemen zal ondersteunen. ®
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://go.theregister.com/feed/www.theregister.com/2024/04/10/meta_mtia_chip/