ゼファーネットのロゴ

記憶を再考する

日付:

専門家がテーブルに着く: 半導体エンジニアリングは、ますます異種混合システムにおけるメモリの今後の方向性について、製品管理のグループディレクターであるフランク・フェロ氏と話し合いました。 ケイデンス;スティーブン・ウー氏、同僚で著名な発明家 ラムバス; Jongsin Yun 氏、メモリ技術者 シーメンスEDA; Randy White 氏、メモリ ソリューション プログラム マネージャー キーサイト; フランク・シルマイスター氏、ソリューションおよびビジネス開発担当副社長 アルテリス。以下はその会話の抜粋です。

[左から右]: フランク・フェロ、ケイデンス。スティーブン・ウー、ランバス。ユン・ジョンシン、シーメンス EDA、ランディ・ホワイト、キーサイト。そしてフランク・シルマイスター、アルテリス。

[左から右]: フランク・フェロ、ケイデンス。スティーブン・ウー、ランバス。ユン・ジョンシン、シーメンス EDA、ランディ・ホワイト、キーサイト。フランク・シルマイスター、アルテリス

SE: AI/ML と電力需要に苦戦する中で、どのような構成を再考する必要がありますか?フォン・ノイマン建築からの移行は起こるのでしょうか?

ウー: システム アーキテクチャに関しては、業界で二分化が起こっています。 x86 ベースのサーバー上のクラウドで実行される、主要な主力である従来のアプリケーションが消えることはありません。何十年にもわたって構築され進化してきたソフトウェアがあり、それらのソフトウェアは適切なパフォーマンスを発揮するためにそのアーキテクチャに依存しています。対照的に、AI/ML は新しいクラスです。人々はアーキテクチャを再考し、非常にドメイン固有のプロセッサを構築しました。エネルギーの約 5 分の 6 がプロセッサと HBM デバイス間でのデータの移動だけに費やされ、DRAM コアのビットへの実際のアクセスに費やされるのはわずか約 XNUMX 分の XNUMX であることがわかります。現在、データの移動ははるかに困難であり、コストも高くなっています。記憶を消すつもりはありません。データセットが大きくなっているため、これが必要になります。そこで問題は、「今後の正しい方法は何でしょうか?」ということです。スタッキングについては多くの議論が行われてきました。そのメモリをプロセッサの上部に直接配置すると、XNUMX つのことが行われます。まず、今日の帯域幅はチップの海岸線または周囲によって制限されています。ここが I/O の役割です。しかし、それをプロセッサーの上に直接スタックした場合、チップの全領域を分散相互接続に利用できるようになり、メモリー自体の帯域幅をより多く得ることができ、メモリーに直接供給できるようになります。プロセッサー。リンクは大幅に短くなり、電力効率はおそらく XNUMX 倍から XNUMX 倍程度向上します。第 XNUMX に、メモリへのアレイ相互接続の面積が増えるため、取得できる帯域幅の量も整数倍に増加します。これら XNUMX つのことを同時に実行すると、より多くの帯域幅が提供され、電力効率が向上します。業界はニーズが何であれ進化します。これは間違いなく、メモリ システムが将来、より電力効率を高め、より多くの帯域幅を提供するために進化し始めることになるでしょう。

鉄: 2016 年頃に私が初めて HBM に取り組み始めたとき、上級顧客の一部から HBM をスタックできるかどうか尋ねられました。彼らは、明らかな利点があるため、DRAM を上に積み重ねる方法をかなり長い間検討してきました。物理層から見ると、PHY は基本的に無視できるほどになり、電力と効率が大幅に節約されます。しかし今では、数 100W のプロセッサの上にメモリが搭載されています。記憶は熱に耐えられないのです。これはおそらく熱連鎖の中で最も弱い部分であり、別の課題を引き起こします。利点はありますが、サーマルにどう対処するかを考える必要があります。現在、このタイプのアーキテクチャを推進する動機がさらに高まっています。これにより、パフォーマンスと電力の面で全体的に実際に節約され、コンピューティング効率が向上するからです。ただし、物理的な設計上、対処しなければならない課題がいくつかあります。スティーブが言っていたように、私たちはあらゆる種類のアーキテクチャが登場しているのを見ています。 GPU/CPU アーキテクチャがなくなるわけではなく、今後も主流であり続けるだろうということに私は完全に同意します。同時に、地球上のすべての企業が、AI を実行するためのより優れたネズミ捕りを考え出そうとしています。オンチップ SRAM と高帯域幅メモリの組み合わせが見られます。 LPDDR は、そのパワーを理由に、データセンターで LPDDR をどのように活用するかという点で、最近かなり注目を集めています。すべての古いメモリ システムだけでなく、一部の AI 推論アプリケーションでも GDDR が使用されているのを見てきました。彼らは現在、できるだけ多くの DDR5 を設置面積内に収めようとしています。私は、DDR、HBM、GDDR など、考えられるすべてのアーキテクチャを見てきました。全体的な付加価値と、特定のアーキテクチャをどのように突破できるかは、プロセッサ コアによって異なります。メモリ システムを搭載しているため、利用可能なものに応じて CPU とメモリ アーキテクチャをカスタマイズできます。

ゆん: もう一つの問題は不揮発性です。たとえば、AI が IoT ベースの AI の実行間の電源間隔を処理する必要がある場合、大量の電源のオフとオンが必要になり、AI トレーニング用のすべての情報を何度も回転させる必要があります。これらの重みをチップに保存できる何らかのソリューションがあれば、同じ重みを得るために常に前後に移動する必要がなくなり、特に IoT ベースの AI の場合、大幅な電力の節約になります。これらの電力需要を解決する別のソリューションが登場するでしょう。

シルマイスター: NoC の観点から興味深いと思うのは、NoC を経由するプロセッサーからのこれらのパスを最適化する必要があり、場合によっては UCIe を経由してコントローラーとのメモリー・インターフェースにアクセスして、チップレットを別のチップレットに渡し、そのチップレットにメモリーが組み込まれることです。それ。ノイマン型アーキテクチャが死んだわけではありません。しかし、現在では、計算したいワークロードに応じて、非常に多くのバリエーションがあります。それらは記憶の文脈で考慮される必要があり、記憶は 1 つの側面にすぎません。データの局所性からデータを取得し、この DRAM 内でどのように配置されますか?私たちは、メモリのパフォーマンス分析やそのシステム アーキテクチャの最適化など、これらすべてのことに取り組んでいます。それは新しいアーキテクチャのための多くのイノベーションを引き起こしていますが、大学でフォン・ノイマンについて学んでいた頃には考えもしませんでした。反対側の端にはメッシュのようなものがあります。現在、その間に検討すべきアーキテクチャがさらにたくさんありますが、それはメモリ帯域幅やコンピューティング能力などによって左右され、同じ速度で成長するわけではありません。

白: 分散コンピューティングや分散コンピューティングがトレンドになっています。これは、アーキテクトが自由に使えるツールを増やす必要があることを意味します。メモリ階層が拡張されました。フラッシュおよび DRAM で使用できる CXL およびさまざまなハイブリッド メモリに加えて、セマンティクスも含まれています。データセンターへの並行アプリケーションは自動車です。自動車では常にこのセンサーが ECU (電子制御ユニット) で演算されていました。それがデータセンターにどのように進化したかに興味を持っています。さて、今日では、ドメイン コントローラーと呼ばれる分散計算ノードが登場しました。それは同じことです。コンピューターの規模はそれほど大きくないため、電力はそれほど大きな問題ではないかもしれないが、自動車にとって遅延は確かに大きな問題であることに対処しようとしている。 ADAS には超高帯域幅が必要であり、さまざまなトレードオフがあります。さらに、機械式センサーも増えていますが、データセンターにも同様の制約があります。低遅延である必要のないコールド ストレージがあれば、他の高帯域幅アプリケーションもあります。アーキテクトのためのツールとオプションがどれほど進化したかを見るのは興味深いことです。業界は非常にうまく対応しており、私たち全員が市場に投入するさまざまなソリューションを提供しています。

SE: メモリ設計ツールはどのように進化しましたか?

シルマイスター: 90 年代に最初のいくつかのチップを使い始めたとき、最も使用されたシステム ツールは Excel でした。それ以来、私はシステム レベル、メモリ、帯域幅分析などで行っている作業について、ある時点でこのシステムが壊れるかもしれないと常に願ってきました。これは私のチームにかなりの影響を与えました。当時としては非常に先進的なものでした。しかし、ランディ氏の指摘によれば、現在では、特定の複雑なものを、以前はコンピューティングなしでは不可能だった忠実度のレベルでシミュレートする必要があるという。例を挙げると、DRAM アクセスに一定のレイテンシがあると仮定すると、アーキテクチャの決定が間違ってしまい、チップ上のデータ転送アーキテクチャの設計が誤ってしまう可能性があります。裏側も同様です。常に最悪のケースを想定すると、アーキテクチャを過剰に設計することになります。ツールで DRAM とパフォーマンスの分析を実行し、コントローラーに適切なモデルを利用できるため、アーキテクトはそのすべてをシミュレートできます。これは魅力的な環境です。Excel がある時点で Excel が機能しなくなるかもしれないという私の 90 年代からの期待。システム レベルのツールは、実際に実現する可能性があります。これは、動的影響の一部は Excel では実行できなくなり、それらをシミュレートする必要があるためです。特に、PHY 特性を備えたダイツーダイ インターフェイスを投入し、層をリンクする場合には、すべてが正しいかどうかのチェックや、場合によってはデータを再送信するなどの機能があります。これらのシミュレーションを実行しないと、アーキテクチャが最適ではなくなります。

鉄: 私たちが行うほとんどの評価の最初のステップは、DRAM 効率の調査を開始するためのメモリ テストベンチを提供することです。これは、DRAM シミュレーションを行うためにローカル ツールを実行するという単純な作業を行った後、本格的なシミュレーションに入るという大きな一歩です。この種のシミュレーションを求めるお客様が増えています。 DRAM 効率が 90 秒台後半に達していることを確認することは、あらゆる評価における非常に重要な最初のステップです。

ウー: フル システム シミュレーション ツールの台頭が見られる理由の 90 つは、DRAM がはるかに複雑になったことです。現在、Excel などの単純なツールを使用して、これらの複雑なワークロードの基準を満たすことは非常に困難です。 40 年代の DRAM のデータシートを見ると、そのデータシートは XNUMX ページほどありました。今では数百ページにもなります。これは、高帯域幅を利用するためのデバイスの複雑さを物語っているだけです。これに、メモリがシステム コストの大きな要因となるだけでなく、プロセッサのパフォーマンスに関連する帯域幅や遅延も考慮されます。これはパワーの大きな要因でもあるため、より詳細なレベルでシミュレーションする必要があります。ツール フローの観点から見ると、システム アーキテクトはメモリが大きな推進力であることを理解しています。そのため、システムアーキテクトが何が起こっているのか、特にメモリがシステムにどのような影響を与えているかを全体的に把握できるように、ツールはより洗練されている必要があり、他のツールとうまく連携する必要があります。

ゆん: AI 時代への移行に伴い、多くのマルチコア システムが使用されていますが、どのデータがどこに行くのかはわかりません。また、チップとの平行性も向上しています。メモリのサイズはかなり大きくなります。 ChatGPT タイプの AI を使用すると、モデルのデータ処理には約 350MB のデータが必要となり、重みだけでも膨大な量のデータが必要となり、実際の入出力はさらに大きくなります。必要なデータ量の増加は、これまでに見たことのない多くの確率的影響が存在することを意味します。この大量のメモリに関連するすべてのエラーを確認するのは、非常に困難なテストです。また、ECC は、従来は ECC を使用していなかった SRAM を含むあらゆる場所で使用されていますが、現在では最大規模のシステムで非常に一般的になっています。これらすべてをテストするのは非常に困難であり、さまざまな条件をすべてテストするには EDA ソリューションによるサポートが必要です。

SE: エンジニアリング チームは日常的にどのような課題に直面していますか?

白: いつでも、あなたは研究室で私を見つけるでしょう。袖をまくると、ワイヤーを突いたり、はんだ付けしたりして、手が汚れます。私はシリコン後の検証についてよく考えています。私たちは初期のシミュレーションやオンダイ ツール、BiST などについて話しました。結局のところ、出荷する前に、何らかの形でシステム検証またはデバイスレベルのテストを実行したいと考えています。記憶の壁を乗り越える方法について話し合いました。メモリや HBM などを同じ場所に配置します。パッケージング技術の進化を見ると、私たちは有鉛パッケージから始まりました。シグナルインテグリティの点ではあまり良くありませんでした。数十年後、私たちはボール グリッド アレイ (BGA) のような最適化されたシグナル インテグリティに移行しました。私たちはそれにアクセスできませんでした。つまり、テストできませんでした。そこで私たちは、デバイス インターポーザー (BGA インターポーザー) と呼ばれるこの概念を思いつきました。これにより、信号を配線する特別な固定具を挟むことができるようになりました。次に、それをテスト機器に接続します。今日に遡って、HBM とチップレットが登場しました。シリコンインターポーザー上でフィクスチャを挟むにはどうすればよいですか?私たちにはそれができません、それが苦闘なのです。夜も眠れなくなるような挑戦です。 OEM またはシステム顧客の現場で、90% の効率が得られていない障害分析をどのように実行すればよいでしょうか。リンクにさらにエラーがあり、適切に初期化できず、トレーニングが機能していません。システムの完全性の問題でしょうか?

シルマイスター: 研究室に歩いて行くよりも、仮想インターフェイスを使用して自宅からこの作業を行いたいと思いませんか?その答えは、チップにさらなる分析機能を組み込むことではないでしょうか?チップレットを使用すると、すべてがさらに統合されます。そこにはんだごてを入れるという選択肢は実際にはありません。そのため、オンチップ分析の方法が必要です。 NoC についても同じ問題があります。人々は NoC を見て、あなたがデータを送信すると、そのデータは消えてしまいます。人々がデバッグできるようにするための分析が必要であり、それが製造レベルにまで拡張され、最終的には在宅勤務でチップ分析に基づいてすべての作業を行うことができるようになります。

鉄: 特に高帯域幅メモリでは、物理的に中に入ることができません。 PHY のライセンスを取得すると、それに付随する製品も提供されるため、1,024 ビットのすべてに目を向けることができます。このツールから DRAM の読み取りと書き込みを開始できるため、そこに物理的にアクセスする必要はありません。インターポーザーのアイデアは気に入っています。テスト中にいくつかのピンをインターポーザーから取り出しますが、システムではこれを行うことはできません。これらの 3D システムに参入するのは本当に困難です。デザイン ツール フローの観点から見ても、ほとんどの企業がこれらの 2.5D ツールの多くで独自のフローを実行しているようです。私たちは、シグナル インテグリティ、電力、フロー全体に至るまで、2.5D システムを構築するためのより標準化された方法をまとめ始めています。

白: 物事は臨機応変に進んでいきますが、今後も同じレベルの精度を維持できることを願っています。私は UCIe フォーム ファクター コンプライアンス グループに所属しています。私は既知の良いサイコロ、つまり黄金のサイコロを特徴づける方法を検討しています。最終的には、さらに時間がかかることになりますが、必要なテストのパフォーマンスと精度と、組み込まれている柔軟性の間の適切な中間点を見つけることになるでしょう。

シルマイスター: チップレットと、よりオープンな実稼働環境でのその採用について調べてみると、テストはそれを適切に動作させる上での大きな課題の 1 つです。私が大企業で、そのすべての側面を管理している場合は、テストなどを実行できるように物事を適切に制限することができます。 UCI は PCI からわずか 1 文字離れているという UCIe のスローガンに従い、製造の観点から見て、UCIe アセンブリが今日の PC の PCI スロットのようなものになる未来を想像する場合、そのためのテストの側面は実際には次のとおりです。挑戦的。解決策を見つける必要があります。やるべきことはたくさんあります。

スポット画像

最新のインテリジェンス

スポット画像