ゼファーネットのロゴ

チップレットがスーパーコンピューターの競争に参加

日付:

さまざまな国のいくつかのエンティティが、今日のスーパーコンピューターよりも1,000倍高速な新しいクラスのシステムであるチップレットベースのエクサスケールスーパーコンピューターを提供および展開するために互いに競争しています。

最新のエクサスケールスーパーコンピューターのCPUとGPUの設計は、高度なパッケージの複雑なダイを組み合わせて組み合わせ、スーパーコンピューターに新しいレベルの柔軟性とカスタマイズを追加します。 何年もの間、さまざまな国がこの分野での指導的地位を争ってきましたが、その利点はスーパーコンピューターだけにとどまりません。 これらの大規模で高価なシステムは、AI、生物学、防衛、エネルギー、科学における驚異的なブレークスルーへの道を開きます。

今日のスーパーコンピューターと新しいエクサスケールシステムは、量子コンピューターとはまったく異なる従来のコンピューティングの原理に基づいています。 従来のコンピューティングでは、情報はビット単位で格納されます。ビットはXNUMXまたはXNUMXのいずれかになります。 量子コンピューティングでは、情報は量子ビットまたはキュービットに格納されます。これらは、ゼロ、XNUMX、または両方の組み合わせとして存在できます。 重ね合わせ状態により、量子コンピューターは従来のシステムよりも優れた性能を発揮しますが、量子システムはまだ実用化にはほど遠い状態です。

最先端の従来型スーパーコンピューターは、1兆を超えるパフォーマンスを発揮します(1015)442秒あたりの浮動小数点演算(petaFLOPSまたはPflop / s)。 今日、理研と富士通によって構築されたスーパーコンピューターである富岳は、世界最速のシステムであり、XNUMX Pflop / sの高性能Linpack(HPL)ベンチマークスコアを備えています。 HPLスコアは、特定の一次方程式を解く際のシステムのパフォーマンスを反映しています。 システムの全体的なパフォーマンスを反映しているわけではありません。

エクサスケール速度
一方、中国、ヨーロッパ、日本、米国のいくつかの組織は、数千億の計算を実行するエクサスケールクラスのスーパーコンピューターを開発しています(1018)または毎秒以上(exaFLOPSまたはEflop / s)。

最近、中国の1.5台のスーパーコンピューターがEflop / sの障壁を打ち破ったと主張しましたが、これらの結果はまだ実証されていません。 そして今年後半には、米国は最初のエクサスケールスーパーコンピューターであるフロンティアと呼ばれるXNUMX Eflop/s以上のシステムを展開する予定です。 AMDのサーバープロセッサとGPUアクセラレータに基づいて、フロンティアはオークリッジ国立研究所にあります。

米国はまた、アルゴンヌ国立研究所で製造されているオーロラを含む、他のXNUMXつのエクサスケールスーパーコンピューターを開発しています。 Auroraは、IntelのサーバープロセッサとGPUを中心に構築されています。

アーキテクチャの観点からは、すべてのスーパーコンピューターは類似しています。 これらのシステムは多数のラックで構成されており、各ラックは多数の計算ノードで構成されています。 各計算ノードには、複数のCPUとGPUがあります。 従来、これらのチップの多くは大きくて複雑なシステムオンチップ(SoC)デバイスであり、すべての機能がモノリシックダイに組み込まれていました。

それは変わり始めています。 すべてではありませんが、一部のエクサスケールスーパーコンピューターは、特に米国ベースのシステムでチップレットアプローチを使用しています。 これらのシステムのCPUとGPUは、SoCの代わりに、より小さなダイまたはタイルを組み込んでおり、それらが製造されて高度なパッケージに再集約されます。 簡単に言えば、大きなSoCよりも高い歩留まりで小さなダイを製造する方が比較的簡単です。

パッケージに複数のダイを組み込むというアイデアは、特にハイパフォーマンスコンピューティング(HPC)では新しいものではありません。 「1980つのパッケージに複数のチップを入れるというアイデアは長い間存在していました。 IBMは、XNUMX年代初頭にマルチチップキャリアを使用してメインフレームを構築しました」と、HyperionResearchのリサーチ担当シニアバイスプレジデントであるBobSorensenは述べています。 「したがって、理論的には、チップレットは、単一のパッケージに複数のダイが組み込まれた最新のものにすぎません。 しかし、チップレットを使用すると、HPC設計者は、HPCの予想されるワークロードに最適な正確な計算、メモリ、およびI/O機能を備えたプロセッサを構築できます。」

この市場にはいくつかの変更と発表があります。 その中で:

  • 中国はエクサスケールのスーパーコンピューターを配備しています。
  • 米国は最初のエクサスケールシステムを準備しています。
  • AMDとIntelは、エクサスケール時代のチップに関する詳細を公開しました。
  • 業界は、チップレットをパッケージに接続するための新しい標準をリリースしました。

図1:今年後半に展開が予定されているFrontierエクサスケールスーパーコンピューターは、1.5 Eflops/sのパフォーマンスを目標としています。 出典:オークリッジ国立研究所

図1:今年後半に展開が予定されているFrontierエクサスケールスーパーコンピューターは、1.5 Eflops/sのパフォーマンスを目標としています。 出典:オークリッジ国立研究所

スーパーコンピューターレース
Hyperion Researchによると、スーパーコンピューター市場は合計で6.6年の2021億ドルから7.8年には2022億ドルに成長すると予測されています。 Hyperionは、スーパーコンピューター市場を3つのセグメントに分割します。リーダーシップ/エクサスケール、大規模(それぞれ、500,000万ドル以上)、およびエントリーレベル(3万ドルから600万ドル)です。 各エクサスケールシステムは約XNUMX億ドルで販売されています。

何年もの間、スーパーコンピューターは多くのアプリケーションに使用されてきました。 「天気予報のような大規模なシミュレーションタスク、暗号通貨マイニングのような大規模な算術コンピューティングタスク、衛星画像処理のような大規模な画像処理タスク、深層学習トレーニングのための大規模なニューラルネットワークコンピューティングなど、多くのことにスーパーコンピューティングが必要です」と、 D2S。 「これは、逆リソグラフィ技術、マスクプロセス補正、マスクとウェーハのシミュレーションベースの検証、マスクとウェーハの検査などの問題のために、半導体製造で広く使用されています。」

タイムラインとして見ると、コンピューティング分野は大きな進歩を遂げました。 1945年、ペンシルベニア大学は、最初の汎用電子デジタルコンピュータであるENIACを開発しました。 ENIACは、真空管を使用してデータを処理し、5,000秒あたりXNUMX回の追加を実行しました。

1950年代以降、トランジスタは多くのシステムで真空管に取って代わり、より高速なコンピュータを可能にしました。 チップの主要な構成要素であるトランジスタは、デバイスのスイッチとして機能します。

1964年、現在は廃止されたControl Dataにより、世界初のスーパーコンピューターであるCDC6600が発表されました。 6600には、60MIPSのパフォーマンスを備えたトランジスタを使用した2ビットプロセッサが組み込まれています。 それ以来、スーパーコンピューターははるかに強力になりました。 同時に、さまざまな国がパフォーマンスのリーダーとしての地位をめぐって互いに飛躍し続けています。

たとえば、2008年、IBMのRoadrunnerは、1.026 Pflop/sのパフォーマンスを備えた世界最速のスーパーコンピューターでした。 これは、このマイルストーンに到達した最初のスーパーコンピューターになりました。 その後、2010年に、中国は1 Pflops/sのパフォーマンスレベルのスーパーコンピューターであるTianhe-2.57Aでリーダーシップを発揮しました。

2020年以来、日本の富岳はスーパーコンピューティングで1位を占めています。 IBMのサミットは2位を占め、米国で最速のスーパーコンピューターです。

富岳システムは、158,976個の計算ノードで構成され、合計7,630,848個のArmプロセッサコアが搭載されています。 「各ノードには、64コアの汎用プロセッサコアと48つのアシスタントコアで構成されるA64FXと呼ばれるプロセッサが搭載されています。 A7FXはXNUMXnmプロセスで製造されています」と、富士通/理研の研究者である山村修二氏は最近のISSCCイベントの論文で述べています。

富岳は特注のARMプロセッサを使用しています。 チップレットアーキテクチャではありません。 対照的に、中国のスーパーコンピューターはカスタムプロセッサーを使用する傾向があります。 エクサスケールではないスーパーコンピューターの多くは、マーチャントチップを使用しています。

「より主流のHPCセクターの場合、ハードウェアの決定は主に、より主流のマスコンポーネントの可用性に基づいています」とHyperionのSorensen氏は述べています。 「これらには、Intel CPU、Nvidia GPU、InfiniBand相互接続が含まれる場合があります。 これらは、HPCワークロード環境に最適になるように構成されている場合もあれば、電力の問題に対処するための積極的なパッケージングおよび冷却機能を備えている場合もあります。」

CPUとGPUの両方がHPCで重要な役割を果たします。 「シーケンシャルデータ処理タイプのプログラミングの場合、CPUはGPUよりも費用効果が高い傾向があります。 ただし、特定のデータ単位に対して大量のデータを計算するタスクの場合、特にコンピューティングタスクを単一命令複数データ(SIMD)の問題にキャストできる場合は、GPUの方がはるかに効率的です。 これは、データの多くが並行して処理され、異なるデータに対して同じ命令で実行される場所です」とD2Sの藤村氏は述べています。

エクサスケール時代
今後、スーパーコンピューティングはエクサスケールの時代に入り、生物学、防衛、科学、その他の分野で新たなブレークスルーをもたらすことを約束します。

エクサスケールシステムの開発には費用がかかります。 「エクサスケールの範囲では、500億ドルを超えるHPCは、全体の予算の20%以上を、カスタムチップ、相互接続、その他のコンポーネントなどの特別な機能の開発に充てて、目標とするワークロード要件を満たすことができます」とHyperionのSorensen氏は述べています。

いくつかのエンティティがエクサスケールのスーパーコンピューターを開発しています。 中国は狭いリードを持っているように見え、米国がそれに続いています。 ヨーロッパは群を抜いています。 今年の初めに、欧州高性能コンピューティング共同事業(EuroHPC)は、エクサスケールプログラムを含むいくつかの新しいプロジェクトを立ち上げました。 EUがいつシステムを立ち上げるかは不明です。

Hyperion Researchによると、中国には3つのエクサスケールスーパーコンピューター、Sunway Oceanlite、Tianhe-2021、およびSugonがあります。 Wuxiの国立スーパーコンピューターセンターに設置されたSunwayOceanliteは、1.3年に完成しました。昨年、研究者はピークパフォーマンスで39010 Eflop/sレベルに達したと主張しました。 このシステムは、内部で設計されたSW38CPUに基づいています。 Hyperionによると、システムは合計でXNUMX万を超えるCPUコアで構成されています。

昨年末に完成したTianhe-3は、1.7 Eflops/sのパフォーマンスを示しました。 その間、Sugonシステムは遅れています。 中国のパフォーマンス結果は確認されていません。

中国は従来のカスタムプロセッサを使用する傾向がありますが、米国を拠点とするエクサスケールシステムは別のアプローチを採用しています。 CPUとGPUはチップレットを活用しており、ダイを組み合わせて組み合わせ、パッケージに組み立てます。

現在までに、AMD、Intel、Marvellなどが開発してきました チップレット主にサーバーおよびその他のハイエンドアプリケーション向けのベースの設計。 この概念は、スーパーコンピューティングにも理想的です。

の親会社であるPromexの社長兼CEOであるRichardOtteは、次のように述べています。 QPテクノロジー。 「たとえば、DoDとDARPAは、最速のスーパーコンピューターをラボに導入するために取り組んでおり、チップレットはこれを可能にするのに役立ちます。」

現在、米国では、オーロラ、エルキャピタン、フロンティアの2022つのエクサスケールシステムが開発中です。 フロンティアは2023年後半に稼働し、続いてXNUMX年にオーロラとエルキャピタンが稼働する予定です。

2019年、米国エネルギー省(DOE)は、オークリッジ国立研究所にフロンティアエクサスケールスーパーコンピューターを構築する契約をクレイに授与しました。 2019年、CrayはHewlett Packard Enterprise(HPE)に買収されました。

HPEは、多数の計算ノードをサポートするフロンティアのプラットフォームを構築しました。 各計算ノードは、AMDのサーバーCPUのXNUMXつとXNUMXつのAMDGPUアクセラレーターをサポートします。

TSMCの6nmプロセスに基づいて、AMDの新しいGPUアクセラレーターには58つのダイが組み込まれており、合計で380億個のトランジスタで構成されています。 このアーキテクチャは、XNUMXテラフロップスのピークパフォーマンスを超えています。

GPUアーキテクチャはに組み込まれています 2.5D ひねりを加えたパッケージ。 ほとんどの2.5D/3Dパッケージでは、ダイはインターポーザーの上に積み重ねられるか、並べて配置されます。 シリコン貫通ビア (TSV)。 TSVは、ダイからボードへの電気接続を提供します。

「TSVは、 3D-IC、[提供]積み重ねられたチップ間の電気的接続。 TSVを使用した3D-ICテクノロジーの主な利点は、さまざまなコンポーネント間の相互接続がはるかに短いことです。これにより、抵抗容量の遅延が少なくなり、デバイスのフットプリントが小さくなります」と、 UMC、最近の論文で。

図2:高性能コンピューティングパッケージのさまざまなオプション、インターポーザーベースの2.5Dとファンアウトチップオン基板(FOCoS)。 出典:ASE

図2:高性能コンピューティングパッケージのさまざまなオプション、インターポーザーベースの2.5Dとファンアウトチップオン基板(FOCoS)。 出典:ASE

2.5D / 3Dパッケージでは、 インターポーザー 動作しますが、構造に無駄なスペースがあります。 そのため、いくつかの企業が、 シリコンブリッジ。 ブリッジは、パッケージ内のXNUMXつのチップを別のチップに接続するルーティング層を備えた小さなシリコン片です。 一例では、IntelはEmbedded Multi-die Interconnect Bridge(EMIB)を開発しました。これは、通常、基板に埋め込まれるシリコンブリッジです。

一方、AMDのGPUでは、同社はGPUをスタックし、 広帯域メモリ (HBM)シリコンブリッジ上に並べて。 HBMは基本的にDRAMメモリスタックです。

基板に埋め込まれているEMIBとは異なり、AMDはブリッジを基板の上に配置します。 AMDはこれを2.5DElevatedFanout Bridge(EFB)と呼んでいます。

図3:基板ベースのブリッジとAMDの2.5D高架ファンアウトブリッジ(EFB)出典:AMD

図3:基板ベースのブリッジとAMDの2.5D高架ファンアウトブリッジ(EFB)出典:AMD

他のエクサスケールスーパーコンピューターが開発中です。 少し前に、ローレンスリバモア国立研究所、HPE、AMDは、2 Eflop/sを超えると予想されるエクサスケールシステムであるElCapitanを発表しました。 このシステムは、AMDのチップレットベースのCPUとGPUに基づいています。

一方、2019年には、DOE、Intel、HPEが、2 Eflop/s以上のシステムであるAuroraを構築する計画を発表しました。 当初、Auroraは2021年にアルゴンヌに納入される予定でしたが、Intelでのチップの遅延により、それは延期されました。

Auroraは、9,000を超える計算ノードを備えたHPEのスーパーコンピュータープラットフォームに基づいています。 各ノードは、10つのIntelのSapphire Rapidsプロセッサ、230つのIntelのGPUアクセラレータ(コード名はPonte Vecchio)、およびユニファイドメモリアーキテクチャで構成されています。 これは、XNUMXペタバイト(PB)のメモリとXNUMXPBのストレージで構成されています。

Sapphire Rapidsは次世代のXeonプロセッサであり、4つの小さなCPUダイをパッケージに組み込んでいます。 Intelの7nmfinFETプロセスに基づいて、ダイはEMIBを使用して接続されます。

プロセッサは、100MBを超える共有L3キャッシュ、8つのDDR5チャネル、および32GT / s PCIe/CXLレーンで構成されています。 「新しいテクノロジーには、AIワークロードを高速化するためのマトリックス乗算機能であるIntel Advanced Matrix Extensions(AMX)と、新しいワークロードに対応するための新しい仮想化テクノロジーが含まれます」と、IntelのプリンシパルエンジニアであるNevineNassifは最近のISSCCでのプレゼンテーションで述べています。イベント。

Auroraでは、CPUはIntelのXe-HPCマイクロアーキテクチャに基づくGPUであるPonteVecchioと連携します。 この複雑なデバイスは、パッケージ内の47つのプロセスノードに100個のタイルを組み込んでいます。 合計で、このデバイスはXNUMX億個を超えるトランジスタで構成されています。

基本的に、ヴェッキオ橋は基板上に2つのベースダイを積み重ねます。 各ベースダイで、Intelはメモリファブリックをスタックし、次にコンピューティングタイルとSRAMタイルをスタックします。 このデバイスには、XNUMXつのHBMXNUMXEタイルもあります。 ダイが相互に通信できるようにするために、Intelは独自のダイツーダイリンクを使用しています。

Intelの7nmプロセスに基づいて、16つのベースダイはGPUに通信ネットワークを提供します。 ダイには、メモリコントローラー、電圧レギュレーター、電力管理、および5個のPCIe GenXNUMX/CXLホストインターフェイスレーンが含まれます。

各ベースダイで、Intelは8つのコンピューティングタイルと4つのSRAMタイルをスタックします。 コンピューティングタイルはTSMCの5nmプロセスに基づいていますが、SRAMはIntelの7nmテクノロジーに基づいて構築されています。

合計で、デバイスには16個の計算タイルと8個のSRAMタイルが組み込まれています。 各コンピューティングタイルには8つのコアがあります。 「各コアには、8ビットの浮動小数点/整数オペランドを処理する512つのベクトルエンジンと、8ビットのベクトル演算を実行する8つの深さのシストリックアレイを備えた4096つのマトリックスエンジンが含まれています」と、IntelのフェローであるWilfredGomesは次の論文で述べています。 ISSCC。

電力供給のために、Intelはベースダイにいわゆる完全統合電圧レギュレータ(FIVR)を実装しています。 「ベースダイのFIVRは、ベースダイあたり最大300Wを0.7V電源に供給します」とGomes氏は述べています。 「3DスタックFIVRは、複数の電圧ドメインに対する高帯域幅のきめ細かい制御を可能にし、入力電流を削減します。」

熱管理は、高度なパッケージングにおいて重要な課題をもたらします。 この問題に対処するために、IntelはGPUにヒートスプレッダーを配置します。 次に、サーマルインターフェースマテリアル(TIM)がトップダイに塗布されます。

「TIMは、ダイスタックの高さが異なることによって生じるエアギャップを排除し、熱抵抗を低減します。 47個の機能タイルに加えて、16個の追加の熱シールドダイが積み重ねられて、露出したベースダイ領域に熱を伝導する熱ソリューションを提供します」とGomes氏は述べています。

チップレットの開発方法
スーパーコンピューティングは、チップレットの多くのアプリケーションのXNUMXつにすぎません。 最近、いくつかのベンダーがサーバー用のチップレットのようなデザインを開発しました。 将来のチップレットアーキテクチャは現在準備中です。

チップレットのようなデザインを開発することは魅力的ですが、いくつかの課題があります。 チップレットを開発するには、リソースといくつかの要素が必要です。

前述のように、チップレットでは、大きなSoCを設計する代わりに、小さなダイを使用してチップをゼロから設計します。 次に、ダイを製造し、パッケージに再組み立てします。 これに関連するいくつかの設計上の考慮事項があります。

「ある意味で、この種の高度なパッケージまたは高度な製品には、高密度の相互接続が必要です」と、最高技術責任者のChoonLee氏は述べています。 JCET。 「したがって、その文脈では、パッケージング自体は、カプセル化されたパッケージ内の単一のダイではなくなりました。 より高度なパッケージングでは、レイアウト、チップおよびパッケージとの相互作用、およびこれらのレイヤーのルーティング方法について考慮する必要があります。 問題は、パッケージで最適なパフォーマンスまたは最大のパフォーマンスを得るために、レイアウトを実際にどのように最適化するかです。」

それだけが問題ではありません。 パッケージには、いくつかのダイが積み重ねられています。 他のダイはパッケージの他の場所にあります。 したがって、ダイ間相互接続を使用して、あるダイを別のダイに接続する方法が必要です。

今日のチップレットのような設計は、独自のバスとインターフェースを使用してダイを接続しているため、テクノロジーの採用が制限されています。 いくつかの組織がオープンバスとインターフェース規格に取り組んできました。

最新の取り組みでは、ASE、AMD、Arm、Google、Intel、Meta、Microsoft、Qualcomm、Samsung、およびTSMCが最近、チップレット対応のダイツーダイ相互接続標準を確立するコンソーシアムを結成しました。 このグループはまた、パッケージレベルでのオープンな業界相互接続規格であるUCIe仕様を承認しました。 UCIe 1.0仕様は、ダイツーダイI / O物理層、ダイツーダイプロトコル、およびソフトウェアスタックを対象としています。

「チップレットの時代が到来し、業界はシリコン中心の考え方からシステムレベルの計画へと進化し、ICとパッケージの共同設計に重点を置いています」とエンジニアリングおよびテクニカルディレクターのLihongCao氏は述べています。でのマーケティング ASE。 「UCIeは、マルチベンダーエコシステム内のさまざまなIP間のインターフェイスのオープンスタンダードと、高度なパッケージレベルの相互接続の利用を通じて、開発時間とコストを削減することにより、エコシステムの効率を実現する上で極めて重要な役割を果たすと確信しています。」

それはすべての問題を解決するわけではありません。 すべてのパッケージで、熱収支は大きな懸念事項です。 「消費電力と電力使用量は大きな課題です」と、高度なパッケージ開発と統合のバイスプレジデントであるマイケルケリーは述べています。 アムコール。 「パッケージレベルでの統合により、パッケージ業界で大きな打撃を受けています。 残念ながら、シリコンは多くの排熱を発生させます。 熱効率は良くありません。 あなたはどこかに熱を捨てる必要があります。 電話ケースであろうとデータセンターのウォータークーラーであろうと、最終製品で熱放散を行う人にとっては、それを可能な限り熱効率的にする必要があります。 高性能パッケージにどれだけの実際の電流を供給しなければならないかも興味深いものになっています。 電力は低下していませんが、電圧は低下しています。 同じ総電力またはより多くの電力を供給するために、私たちの電流は上昇しています。 エレクトロマイグレーションのようなものに対処する必要があります。 パッケージには、おそらくより多くの電圧変換と電圧調整が必要になるでしょう。 そうすれば、より高い電圧をパッケージに入れて、それらをより低い電圧に分離することができます。 つまり、総電流をパッケージにドラッグする必要はありません。 したがって、力はXNUMXつの方法で私たちを襲っています。 それは熱ですが、それはまたその電力供給ネットワークを電気的に管理しています。 これにより、より多くのコンテンツがパッケージに組み込まれると同時に、火力発電の消費にも最善を尽くしています。」

まとめ
明らかに、チップレットは実現技術を構成し、サーバー設計に取り入れられつつあります。 最近、Appleはチップレットのようなプロセッサ設計のMacデスクトップを発表しました。 現在、チップレットベースのエクサスケールスーパーコンピューターが登場しています。

エクサスケールのスーパーコンピューターでは、チップレットベースのアプローチがフロンティア、エルキャピタン、オーロラのシステムで使用されています。 FugakuやSunwayOceanliteなどの他の製品は、引き続き従来のSoCベースのアプローチに従います。 どちらの方法も機能します。 レースを始めましょう。

関連ストーリー
偉大な量子コンピューティングの競争
企業や国は、さまざまなキュービット技術に数百億ドルを注ぎ込んでいますが、勝者を予測するにはまだ時期尚早です。

次世代3Dチップ/パッケージングレースが始まる
ハイブリッドボンディングは、パッケージングにおいてまったく新しいレベルのパフォーマンスをもたらしますが、それだけが改善されたわけではありません。

チップレットをつなぎ合わせる
このパッケージングアプローチを主流に押し上げる可能性のある変更と、今後の課題。

アドバンストパッケージングの次の波
オプションの長いリストは、目まぐるしい数のオプションとトレードオフを作成しながら、マルチチップパッケージを設計の最前線に推進しています

ポスト チップレットがスーパーコンピューターの競争に参加 最初に登場した 半導体エンジニアリング.

スポット画像

最新のインテリジェンス

スポット画像