CEO インタビュー: そろばんのアクセル・クロス

アクセル・クロス・アバカス・セミ

訓練を受けた物理学者である Axel は、大規模な計算の必要性に慣れています。彼は 30 年以上前に、プロセッサパフォーマンスのスケーラビリティが計算上の問題を解決する上で最も重要であることを発見しました。これにより、コンピューターアーキテクチャに新しいパラダイムが必要になりました。パリミクス、SSRLabs、Axiado で、彼は新しい考え方が必要であることと、新しい実用的なソリューションがどのようなものになるかを示すことができました。アクセルは現在、そろばんセミでそのアプローチを繰り返しています。

Abacus Semiconductor Corporation のビジョンは何ですか?
Abacus Semi は、プロセッサ、アクセラレータ、スマートマルチホームメモリを自由に組み合わせて、レゴのようなビルディングブロックでスーパーコンピュータを構築できる未来を想定しています。現在のスーパーコンピュータは、ユーザーの要求を満たしていないと考えています。ほぼ直線的にはスケーリングしません。多くの場合、スーパーコンピューターを構成する 100,000 台のサーバーは、5,000 台のサーバーの XNUMX 倍のパフォーマンスしか提供できません。これは主に、今日のスーパーコンピューターが本質的に市販の (COTS) デバイスであり、低レベルの待機時間と高レベルの帯域幅で命令およびデータを共有するためのサーバー間の通信が考慮されていないという事実によるものです。もう XNUMX つの欠点は、特定用途向けのアクセラレータをスーパーコンピュータに簡単に統合できないことです。基本的なビルディングブロックについては、レゴと非常によく似た別の見方をしています。プロセッサなどのプログラマブルエレメントがワークロードのオーケストレーションに使用される場合、アクセラレータが作業を実行し、データは専用の I/O ノードを介して出入りしますが、大規模なスマートマルチホームメモリサブシステムは中間データをいつでも手。

Abacus Semiconductor Corporation はどのように始まったのですか?
Axel は訓練を受けた物理学者でありコンピューター科学者であり、スーパーコンピューターを何十年も使用しており、展開と使用の複雑さ、線形スケーリングの欠如、およびそれらに関連する莫大なコストに不満を感じていました。その結果、彼は常にいくつかの基本的な基礎を前提として、修正可能なものを修正しようと試みました。彼はこの旅を 2004 年にビジョンプロセッサの会社、Parimics で開始し、2011 年に Scalable Systems Research Labs, Inc (SSRLabs) に入社し、少し回り道をしてセキュアプロセッサの新興企業に移り、現在は 2020 年に Abacus Semiconductor Corporation に入社しています。

最新のスーパーコンピューターは、ハードウェアとソフトウェアの両方でアクセラレーターを簡単に統合できる必要があり、排他的および共有メモリパーティションの両方で非常に大きなメモリ構成を提供できる必要があります。運用コストのダウン。特に、数値集約型アプリケーション、行列およびテンソル演算、人工知能 (AI) および機械学習 (ML) のためのアクセラレーターの統合、ならびに多くのプロセッサー間で共有される非常に大規模なキャッシュコヒーレントメモリの必要性は、優れた未来であることが証明されています。今日のプロセッサでサポートされていないサイズのメモリアレイに対する GPT-3 および ChatGPT コールの今日の要件としてのプルーフコール。

コンピューター科学者である Axel にとって、固定機能デバイスは非常に優れたパフォーマンスを提供し、プログラマブルエレメントよりも消費電力とシリコン面積が少ないことは明らかでした。ワークロードのオーケストレーションと、ハードウェアが存在しないタスクの実行のために、プロセッサのプログラマビリティを手元に置いておきます。

あなたは共有すべきいくつかの最近の進展があると述べました。彼らは何ですか？
過去 80 年以上にわたって作成したすべてのコードとビルディングブロックを評価し、要件がすべて満たされていることをお知らせします。サーバーオンチップ、スマートマルチホームメモリサブシステム、数学およびデータベースアクセラレータを使用して、スケールアウトの直線性が大幅に向上することをシミュレーションで示しました。ほとんどのアプリケーションと構成では、100,000% のスケールアウト係数に達するようです。つまり、80,000 台のサーバーで構成されるスーパーコンピューターは、3.2 台のサーバーの約 1 のパフォーマンスを提供する必要があります。当社のインターフェイスは、ピンごとに十分な帯域幅を提供し、アクセラレータとプロセッサに出入りする XNUMX TB/秒を超える帯域幅を可能にします。スマートなマルチホームメモリサブシステムは、チップとの間でほぼ XNUMX TB/秒の帯域幅を提供します。セキュリティドメインとコヒーレンシドメインは、メモリサブシステムごとに設定できます。私たちは、エンジニアリングと管理の両方でチームの構築を進めており、タームシートを手元に持っています。このタームシートの妥当性と真実性についてはまだ評価中ですが、現時点では条件は良さそうです。

あなたが構築しているこれらの新しいチップについて教えてください。
前述のように、新世代のスーパーコンピューターを構築するには、新しいプロセッサ、アクセラレータ、およびスマートマルチホームメモリが必要であると考えています。また、今日のコアは信じられないほど優れていること、スーパーコンピューターの問題はプロセッサコアではなく、その周辺のほぼすべてにあるという事実にも触れました。基本的なプログラマブルビルディング要素として変更した RISC-V プロセッサコアを使用しています。そうすることで、RISC-V を中心としたエコシステムの成長に参加することができます。これは、私のキャリアの中で見たプロセッサの中で最速の成長を示していると思います。 RISC-V に関するパフォーマンスを制限する要因をすべて取り除き、仮想化とハイパーバイザーのハードウェアサポートを追加し、キャッシュインターフェイスを最適化し、内部プロセッサ情報スーパーハイウェイに接続できるようにしました。また、すべての I/O およびレガシーインターフェイスにアクセラレータを使用しています。これをレゴのような方法で行っているため、これらのブロックはサーバーオンアチップ、整数データベースプロセッサ、およびオーケストレーションプロセッサで再利用されています。、実際には異なるファームウェアを持つ同じハードウェアです。レゴのような原則は、スマートマルチホームメモリサブシステムにも適用されます。そのため、プロセッサの設計やスーパーコンピュータに重点を置いている他の企業と比較して、当社の開発努力は比較的少額です。クロック周波数を上げなければならないのではなく、並列処理の私たちの哲学により、物理設計の古いいたちごっこゲームに大量のお金を費やす必要はありませんクロック周波数のヘルツ。これらすべてにより、コードとビルディングブロックの再利用が簡素化されます。そのため、私たちは独自の IP を社内で構築し、それを維持しようとしています。

Abacus Semiファミリーのチップは何ですか?
私たちが設計しているチップは、サーバー全体を XNUMX つのプロセッサに効果的に結合するサーバーオンチップ、同一のスーパーコンピュータ I/O フロントエンド、オーケストレーションプロセッサ、整数データベースプロセッサです (これらはどちらも同じハードウェアを展開しますが、異なるファームウェア)、数学アクセラレータ、および一連のスマートマルチホームメモリ。

Abacus Semi チップはどのようにプログラムされていますか?
基盤となるプログラマブルエレメントとして RISC-V プロセッサを使用しているため、既存のエコシステムを利用できます。当社のサーバーオンアチップ、整数データベースプロセッサ、およびオーケストレーションプロセッサはすべて、RISC-V 命令セットアーキテクチャと完全に互換性があります。言い換えれば、それらはすべて Linux と FreeBSD を実行し、コンパイラとして GCC と LLVM/CLANG がしばらくの間利用可能です。実際、LAMP (Linux/Apache/mySQL/PHP) および FAMP (FreeBSD/Apache/mySQL/PHP) スタック全体が利用可能であり、そのため、PHP および Perl アプリケーションはそのままそれらで実行されます。ネットワークに DPU プラスのアプローチを使用しているため、オフロード機能と DMA およびリモート DMA 機能を備えたフィルタリングネットワークインターフェイスカード (NIC) のように機能するプロセッサ用のファームウェアを利用できます。アプリケーションプロセッサへの直接メモリアクセス。大容量ストレージ用の同様のオフロードが利用可能で、アプリケーションプロセッサを大容量ストレージタスクからオフロードすることで、ハイパーバイザの有無にかかわらず、アプリケーションプロセッサの時間をより多くユーザーアプリケーションに使用できるようにします。 Server-on-a-Chip はスーパーコンピューターの I/O フロントエンドとしても機能するため、スーパーコンピューターのコアは I/O またはレガシーインターフェイス機能を実行する必要がありません。これらはすべてサーバーオンチップに追いやられます。これにより、スーパーコンピューターのユーザーは、必要に応じてベアメタル方式でコアを展開できます。行列とテンソル演算、および変換の演算アクセラレータは、外部向け API として openACC と openCL を使用しますが、CUDA をネイティブコマンドセットに変換する変換レイヤーを利用できます。

スケールアウトの改善の背後にあるテクノロジについて詳しく教えてください。
スケールアウトの鍵は通信であり、さらに重要なのは、低遅延で高帯域幅の通信であると考えています。その結果、ブリッジ、インターフェイスアダプター、およびインターフェイスコンバーターを介した通信階層の不要なレイヤーのために構築したものすべてを見直しました。必要かつ可能な限り、それらをすべて削除しました。その結果、当社のアーキテクチャ内の XNUMX つ以上の要素間の通信は、バンプとボール数の制限、および CML タイプの高速シリアルリンクを必要とするプリント回路基板 (PCB) を横断する必要性を考慮して、可能な限り最高の帯域幅を提供します。 . ただし、可能な限り短い FLITS と相応の符号化を使用します。どちらも光通信と電気通信を可能にします。私たちが設計したインターフェースは、わずかなライセンス料で、使用に関心のある人なら誰でも広く採用することができます。クラス最高の帯域幅を提供するのに十分な幅があり、シックスナインリージョンでのシステム可用性のための回復力とエラー検出機能を可能にします。また、XNUMX階層までのネットワークのトポロジーを自律的に認識できるスマートなインターフェースであり、パートナーが欲しいが独自に設計できない場合に備えて、独自のチップレットになるように設計されています。デザイン。

Abacus Semi チップはいつ発売されますか?
お客様やパートナーと協力して、3 年の第 2025 四半期にプロトタイプのテープアウトを確保し、1 年の第 2026 四半期に FCS の量産セットを確保するよう取り組んでいます。