ゼファーネットのロゴ

Meta の次世代 AI チップは電力を消費しながら広告を配信します

日付:

16月に第XNUMX世代AIアクセラレーターを公開した後、Metaはこの自社製シリコンに本格的に取り組む準備ができており、すでにXNUMX地域で広告レコメンデーションに力を入れていると言われている。

Facebook のゴリアテは、広告帝国の背後でレコメンダー モデルを推進するために、ビデオ ストリーミングから機械学習に至るまで、あらゆる種類のワークロードに対応するカスタム アクセラレータを設計してきました。

  最新の追加 Meta Training Inference Accelerator (MTIA) ファミリは、第 3 世代のパーツと比べて 1.5 倍のパフォーマンスと XNUMX 倍の電力効率の利点を主張しており、The Next Platform の友人たちはそう主張しています。 分析 昨年。

Meta 氏によると、第 2 世代チップ (一貫性のために MTIA vXNUMX と呼ぶことにします) は、ハイパースケーラーの内部ランキングおよびレコメンダー モデルで可能な限り最高のパフォーマンスを得るために、コンピューティング、メモリ容量、帯域幅のバランスを取るように設計されました。 。

設計を詳しく見ると、このアクセラレータは 8×8 グリッドのプロセッシング エレメント (PE) を備えており、これらの組み合わせにより、MTIA v3.5 と比較して 7 倍の高密度コンピューティング パフォーマンス、またはスパース性を有効にした場合の 1 倍のパフォーマンスを提供します。

Meta の AI アクセラレータは、すでにハイパースケーラーのランキングおよびレコメンダー モデルを強化しています。

上記の Meta の最新 AI アクセラレータは、すでにハイパースケーラーのランキングおよびレコメンダー モデルを強化しています – クリックして拡大します。出典: メタ

より小型の 5nm TSMC プロセス ノードの使用とクロック速度の 800MHz から 1.35GHz への高速化以外にも、最新部品のパフォーマンス向上に貢献したいくつかのアーキテクチャと設計の改善について Meta 氏は述べています。これらには、スパース計算のサポート、オンダイおよびオフダイ メモリの増加、旧モデルの XNUMX 倍の帯域幅を備えたアップグレードされたネットワーク オン チップ (NoC) が含まれます。第一世代と第二世代を比較するとこんな感じです。

  MTIA v1 MTIA v2
プロセステック 7 nm TSMC 5 nm TSMC
ダイエリア 373 mm2 421 mm2
PE 8×8グリッド 8×8グリッド
クロック速度 800MHz 1.35GHz
INT8パフォーマンス 102トップス 354/708* トップス
FP16/BF16パフォーマンス 51.2 TFLOPS 177/354* TFLOPS
PEメモリ PEあたり128KB PEあたり384KB
オンチップメモリ 128MB 256MB
オフチップメモリ 64GB 128GB
オフチップメモリ​​BW 176GB /秒 204GB /秒
接続性 8x PCIe Gen 4.0 – 16GB/秒 8x PCIe Gen 5.0 – 32GB/秒
TDP 25W 90W

* まばらなパフォーマンス。両方のチップの完全な内訳を見つけることができます こちら.

MTIA v2 によって Web ゴリアテの GPU の必要性がなくなるわけではないことに注意してください。メタ最高責任者のマーク・ザッカーバーグ氏は以前、自身の巨大企業についてこう述べた 展開します 350,000 台の Nvidia H100 アクセラレータがあり、年末までに 600,000 台の H100 に相当するものが稼働する予定です。

その代わりに、MTIA は、特定のタスクに合わせてカスタマイズされたカスタム シリコンを開発するという、メタ (およびその他) にとってますます馴染みのあるパターンに従います。このキットは CPU や GPU ほど柔軟ではないかもしれないが、ASIC を大規模に導入するとより効率的になる可能性があるという考えです。

最新のチップは、前世代のチップの消費電力のほぼ 7 倍ですが、最大 7.8 倍の浮動小数点性能を実現できます。 Meta の最新アクセラレータは、GPU と連携して XNUMX TOPS/W (TOPS/W) を管理します。 議論する Blackwell の取材では、Nvidia の H100 SXM を 5.65 TOPS/W で上回り、A100 SXM の 3.12 TOPS/W の XNUMX 倍以上です。

そうは言っても、Meta が内部ワークロードに合わせてチップのサイズを調整する、つまりレコメンダー モデルの推論に多大な労力を費やしたことは明らかです。これらは、あなたが知っている可能性のある人物、または Meta のビジネス モデルにとってさらに重要なこととして、どの広告があなたに関連している可能性が最も高いかなど、パーソナライズされた提案を表示するように設計されています。

また、チップは必要に応じてスケールアウトできるように設計されており、合計 72 個のアクセラレータを含むラックベースのシステムに導入できます。各システムは、それぞれ 12 個のコンピューティング ボードを含む 2 つのシャーシを組み合わせ、ボードあたり XNUMX つの MTIA vXNUMX チップを備えています。

各 MTIA v2 シャーシには 12 個のコンピューティング ボードが含まれており、それぞれにアクセラレータのペアが含まれています

各 MTIA v2 シャーシには、それぞれ 12 組のアクセラレータを備えた XNUMX 個のコンピューティング ボードが含まれています…クリックして拡大します。出典: メタ。

ワークロードのデプロイに関して、Meta は PyTorch フレームワークと Triton コンパイラーに大きく依存しています。この組み合わせがさまざまな GPU やアクセラレータでタスクを実行するために使用されているのを見てきました。その理由の 1 つは、特定のハードウェアに最適化されたコードを開発する必要性が大幅になくなることです。

メタはメジャーでした 提案者 これは、エンジニアが Nvidia や AMD のさまざまな GPU ハードウェアで実行できる AI アプリケーションを開発できる柔軟性を提供するためです。したがって、Meta が自社のチップでも同じテクノロジーを採用したいと考えるのは当然です。

実際、Meta は、ソフトウェアとハ​​ードウェアを共同開発することで、既存の GPU プラットフォームと比較してより高い効率を達成することができ、将来の最適化によってさらに高いパフォーマンスが得られると期待していると主張しています。

MTIA v2 は、Meta が提供する最後のシリコンではありません。ソーシャルメディアの巨人である同社は、将来の生成AIシステムをサポートするプログラムを含む、いくつかのチップ設計プログラムを進行中であると述べた。 ®

スポット画像

最新のインテリジェンス

スポット画像