Logo Zéphyrnet

La puce IA de nouvelle génération de Meta diffuse des publicités tout en sirotant de l'énergie

Date :

Après avoir présenté son accélérateur d'IA de deuxième génération en février, Meta est prêt à dévoiler ce silicium local, qui alimenterait déjà les recommandations publicitaires dans 16 régions.

Le goliath de Facebook a conçu des accélérateurs personnalisés pour toutes sortes de charges de travail, allant du streaming vidéo à l'apprentissage automatique, afin de piloter les modèles de recommandation derrière son empire publicitaire.

La dernier ajout à la famille Meta Training Inference Accelerator (MTIA) revendique des performances 3 fois supérieures et un avantage d'efficacité énergétique 1.5 fois supérieur à la partie de première génération, ce que nos amis de The Next Platform analysé l'année dernière.

Selon Meta, la puce de deuxième génération, que nous allons appeler MTIA v2 par souci de cohérence, a été conçue pour équilibrer le calcul, la capacité de mémoire et la bande passante afin d'obtenir les meilleures performances possibles pour les modèles de classement et de recommandation internes de l'hyperscaler. .

En creusant dans la conception, l'accélérateur comprend une grille 8 × 8 d'éléments de traitement (PE) qui, ensemble, offrent des performances de calcul dense 3.5 fois supérieures ou des performances 7 fois supérieures avec parcimonie activée par rapport au MTIA v1.

Les accélérateurs d'IA de Meta alimentent déjà les modèles de classement et de recommandation de l'hyperscaler

Le dernier accélérateur d'IA de Meta, ci-dessus, alimente déjà les modèles de classement et de recommandation de l'hyperscaler – Cliquez pour agrandir. Source : Méta

Au-delà de l'utilisation d'un nœud de processus TSMC plus petit de 5 nm et de l'augmentation de la vitesse d'horloge de 800 MHz à 1.35 GHz, Meta note plusieurs améliorations architecturales et de conception qui ont contribué aux gains de performances de la dernière pièce. Ceux-ci incluent la prise en charge des calculs clairsemés, davantage de mémoire sur puce et hors puce et un réseau sur puce (NoC) amélioré avec deux fois la bande passante de l'ancien modèle. Voici comment se comparent la première et la deuxième génération :

  MTIA v1 MTIA v2
Technologie des processus TSMC 7 nm TSMC 5 nm
Zone de matrice 373mm2 421mm2
PE Grille 8×8 Grille 8×8
Vitesse de l'horloge 800MHz 1.35GHz
Performance INT8 102 TOPS 354/708* HAUTS
performances FP16/BF16 51.2 TFLOPS 177/354* TFLOPS
Membre PE 128 Ko par PE 384 Ko par PE
Mémoire sur puce 128MB 256MB
Mémoire hors puce 64GB 128GB
BW mémoire hors puce 176GB / s 204GB / s
Connectivité 8x PCIe génération 4.0 – 16 Go/s 8x PCIe génération 5.0 – 32 Go/s
TDP 25W 90W

* Performances rares. Vous pouvez trouver une ventilation complète des deux puces ici.

Il convient de noter que le MTIA v2 n’éliminera pas le besoin de GPU du géant du Web. Le supremo du Meta, Mark Zuckerberg, a déjà déclaré que sa méga-société va déployer 350,000 100 accélérateurs Nvidia H600,000 et disposera de l'équivalent de 100 XNUMX HXNUMX opérationnels d'ici la fin de l'année.

Au lieu de cela, MTIA suit un modèle de plus en plus familier à Meta (et à d’autres) consistant à développer du silicium personnalisé adapté à des tâches spécifiques. L’idée étant que même si le kit n’est pas aussi flexible que les CPU et les GPU, un ASIC déployé à grande échelle peut être plus efficace.

Alors que la dernière puce consomme près de quatre fois plus d’énergie que son prédécesseur, elle est capable de produire jusqu’à 7 fois plus de performances en virgule flottante. Comparé à un GPU, le dernier accélérateur de Meta gère 7.8 TOPS par watt (TOPS/W), ce qui, comme nous discuté dans notre couverture de Blackwell, bat le H100 SXM de Nvidia à 5.65 TOPS/W et est plus du double de celui de l'A100 SXM à 3.12 TOPS/W.

Cela dit, il est clair que Meta a fait de grands efforts pour adapter la puce à ses charges de travail internes, à savoir l'inférence sur les modèles de recommandation. Ceux-ci sont conçus pour fournir des suggestions personnalisées telles que les personnes que vous connaissez ou, plus important encore pour le modèle commercial de Meta, les publicités les plus susceptibles de vous intéresser.

Les puces sont également conçues pour évoluer selon les besoins et peuvent être déployées dans un système en rack contenant 72 accélérateurs au total : chaque système combine trois châssis contenant chacun 12 cartes de calcul avec deux puces MTIA v2 par carte.

Chaque châssis MTIA v2 contient 12 cartes de calcul contenant chacune une paire d'accélérateurs

Chaque châssis MTIA v2 contient 12 cartes de calcul arborant chacune une paire d'accélérateurs… Cliquez pour agrandir. Source : Méta.

En termes de déploiement de charges de travail, Meta s'appuie fortement sur le framework PyTorch et le compilateur Triton. Nous avons vu cette combinaison utilisée pour effectuer des tâches sur divers GPU et accélérateurs, en partie parce qu'elle élimine en grande partie le besoin de développer du code optimisé pour un matériel spécifique.

Meta, a été un acteur majeur partisan de PyTorch, qu'il a développé avant de céder les rênes à la Linux Foundation, car il donne aux ingénieurs la flexibilité nécessaire pour développer des applications d'IA pouvant fonctionner sur une variété de matériel GPU de Nvidia et AMD. Il est donc logique que Meta veuille utiliser les mêmes technologies avec ses propres puces.

En fait, Meta affirme qu'en co-développant ses logiciels et son matériel, elle a pu atteindre une plus grande efficacité par rapport aux plates-formes GPU existantes et espère obtenir encore plus de performances grâce à de futures optimisations.

MTIA v2 ne sera certainement pas le dernier silicium que nous verrons de Meta. Le géant des médias sociaux affirme avoir plusieurs programmes de conception de puces en cours, dont un qui prendra en charge les futurs systèmes d’IA générative. ®

spot_img

Dernières informations

spot_img