ゼファーネットのロゴ

CEO インタビュー: Abacus の Axel Kloth

日付:

アクセル・クロス・アバカス・セミ

訓練を受けた物理学者である Axel は、大規模な計算の必要性に慣れています。 彼は 30 年以上前に、プロセッサ パフォーマンスのスケーラビリティが計算上の問題を解決する上で最も重要であることを発見しました。 これにより、コンピューター アーキテクチャに新しいパラダイムが必要になりました。 パリミクス、SSRLabs、Axiado で、彼は新しい考え方が必要であることと、新しい実用的なソリューションがどのようなものになるかを示すことができました。 アクセルは現在、そろばんセミでそのアプローチを繰り返しています。

Abacus Semiconductor Corporation のビジョンは何ですか?
Abacus Semi は、プロセッサ、アクセラレータ、スマート マルチホーム メモリを自由に組み合わせて、レゴのようなビルディング ブロックでスーパーコンピュータを構築できる未来を想定しています。 現在のスーパーコンピュータは、ユーザーの要求を満たしていないと考えています。 ほぼ直線的にはスケーリングしません。 多くの場合、スーパーコンピューターを構成する 100,000 台のサーバーは、5,000 台のサーバーの XNUMX 倍のパフォーマンスしか提供できません。 これは主に、今日のスーパーコンピューターが本質的に市販の (COTS) デバイスであり、低レベルの待機時間と高レベルの帯域幅で命令およびデータを共有するためのサーバー間の通信が考慮されていないという事実によるものです。 もう XNUMX つの欠点は、特定用途向けのアクセラレータをスーパーコンピュータに簡単に統合できないことです。 基本的なビルディング ブロックについては、レゴと非常によく似た別の見方をしています。 プロセッサなどのプログラマブル エレメントがワークロードのオーケストレーションに使用される場合、アクセラレータが作業を実行し、データは専用の I/O ノードを介して出入りしますが、大規模なスマート マルチホーム メモリ サブシステムは中間データをいつでも手。

Abacus Semiconductor Corporation はどのように始まったのですか?
Axel は訓練を受けた物理学者でありコンピューター科学者であり、スーパーコンピューターを何十年も使用しており、展開と使用の複雑さ、線形スケーリングの欠如、およびそれらに関連する莫大なコストに不満を感じていました。 その結果、彼は常にいくつかの基本的な基礎を前提として、修正可能なものを修正しようと試みました。 彼はこの旅を 2004 年にビジョン プロセッサの会社、Parimics で開始し、2011 年に Scalable Systems Research Labs, Inc (SSRLabs) に入社し、少し回り道をしてセキュア プロセッサの新興企業に移り、現在は 2020 年に Abacus Semiconductor Corporation に入社しています。

最新のスーパーコンピューターは、ハードウェアとソフトウェアの両方でアクセラレーターを簡単に統合できる必要があり、排他的および共有メモリ パーティションの両方で非常に大きなメモリ構成を提供できる必要があります。運用コストのダウン。 特に、数値集約型アプリケーション、行列およびテンソル演算、人工知能 (AI) および機械学習 (ML) のためのアクセラレーターの統合、ならびに多くのプロセッサー間で共有される非常に大規模なキャッシュ コヒーレント メモリの必要性は、優れた未来であることが証明されています。今日のプロセッサでサポートされていないサイズのメモリ アレイに対する GPT-3 および ChatGPT コールの今日の要件としてのプルーフ コール。

コンピューター科学者である Axel にとって、固定機能デバイスは非常に優れたパフォーマンスを提供し、プログラマブル エレメントよりも消費電力とシリコン面積が少ないことは明らかでした。ワークロードのオーケストレーションと、ハードウェアが存在しないタスクの実行のために、プロセッサのプログラマビリティを手元に置いておきます。

あなたは共有すべきいくつかの最近の進展があると述べました。 彼らは何ですか?
過去 80 年以上にわたって作成したすべてのコードとビルディング ブロックを評価し、要件がすべて満たされていることをお知らせします。 サーバー オン チップ、スマート マルチホーム メモリ サブシステム、数学およびデータベース アクセラレータを使用して、スケールアウトの直線性が大幅に向上することをシミュレーションで示しました。 ほとんどのアプリケーションと構成では、100,000% のスケールアウト係数に達するようです。つまり、80,000 台のサーバーで構成されるスーパーコンピューターは、3.2 台のサーバーの約 1 のパフォーマンスを提供する必要があります。 当社のインターフェイスは、ピンごとに十分な帯域幅を提供し、アクセラレータとプロセッサに出入りする XNUMX TB/秒を超える帯域幅を可能にします。 スマートなマルチホーム メモリ サブシステムは、チップとの間でほぼ XNUMX TB/秒の帯域幅を提供します。 セキュリティ ドメインとコヒーレンシ ドメインは、メモリ サブシステムごとに設定できます。 私たちは、エンジニアリングと管理の両方でチームの構築を進めており、タームシートを手元に持っています。 このタームシートの妥当性と真実性についてはまだ評価中ですが、現時点では条件は良さそうです。

あなたが構築しているこれらの新しいチップについて教えてください。
前述のように、新世代のスーパーコンピューターを構築するには、新しいプロセッサ、アクセラレータ、およびスマート マルチホーム メモリが必要であると考えています。 また、今日のコアは信じられないほど優れていること、スーパーコンピューターの問題はプロセッサ コアではなく、その周辺のほぼすべてにあるという事実にも触れました。 基本的なプログラマブル ビルディング要素として変更した RISC-V プロセッサ コアを使用しています。 そうすることで、RISC-V を中心としたエコシステムの成長に参加することができます。これは、私のキャリアの中で見たプロセッサの中で最速の成長を示していると思います。 RISC-V に関するパフォーマンスを制限する要因をすべて取り除き、仮想化とハイパーバイザーのハードウェア サポートを追加し、キャッシュ インターフェイスを最適化し、内部プロセッサ情報スーパーハイウェイに接続できるようにしました。 また、すべての I/O およびレガシー インターフェイスにアクセラレータを使用しています。これをレゴのような方法で行っているため、これらのブロックはサーバー オン ア チップ、整数データベース プロセッサ、およびオーケストレーション プロセッサで再利用されています。 、実際には異なるファームウェアを持つ同じハードウェアです。 レゴのような原則は、スマート マルチホーム メモリ サブシステムにも適用されます。 そのため、プロセッサの設計やスーパーコンピュータに重点​​を置いている他の企業と比較して、当社の開発努力は比較的少額です。 クロック周波数を上げなければならないのではなく、並列処理の私たちの哲学により、物理設計の古いいたちごっこゲームに大量のお金を費やす必要はありませんクロック周波数のヘルツ。 これらすべてにより、コードとビルディング ブロックの再利用が簡素化されます。そのため、私たちは独自の IP を社内で構築し、それを維持しようとしています。

Abacus Semiファミリーのチップは何ですか?
私たちが設計しているチップは、サーバー全体を XNUMX つのプロセッサに効果的に結合するサーバー オン チップ、同一のスーパーコンピュータ I/O フロントエンド、オーケストレーション プロセッサ、整数データベース プロセッサです (これらはどちらも同じハードウェアを展開しますが、異なるファームウェア)、数学アクセラレータ、および一連のスマート マルチホーム メモリ。

Abacus Semi チップはどのようにプログラムされていますか?
基盤となるプログラマブル エレメントとして RISC-V プロセッサを使用しているため、既存のエコシステムを利用できます。 当社のサーバー オン ア チップ、整数データベース プロセッサ、およびオーケストレーション プロセッサはすべて、RISC-V 命令セット アーキテクチャと完全に互換性があります。 言い換えれば、それらはすべて Linux と FreeBSD を実行し、コンパイラとして GCC と LLVM/CLANG がしばらくの間利用可能です。 実際、LAMP (Linux/Apache/mySQL/PHP) および FAMP (FreeBSD/Apache/mySQL/PHP) スタック全体が利用可能であり、そのため、PHP および Perl アプリケーションはそのままそれらで実行されます。 ネットワークに DPU プラスのアプローチを使用しているため、オフロード機能と DMA およびリモート DMA 機能を備えたフィルタリング ネットワーク インターフェイス カード (NIC) のように機能するプロセッサ用のファームウェアを利用できます。アプリケーションプロセッサへの直接メモリアクセス。 大容量ストレージ用の同様のオフロードが利用可能で、アプリケーション プロセッサを大容量ストレージ タスクからオフロードすることで、ハイパーバイザの有無にかかわらず、アプリケーション プロセッサの時間をより多くユーザー アプリケーションに使用できるようにします。 Server-on-a-Chip はスーパーコンピューターの I/O フロントエンドとしても機能するため、スーパーコンピューターのコアは I/O またはレガシー インターフェイス機能を実行する必要がありません。 これらはすべてサーバーオンチップに追いやられます。 これにより、スーパーコンピューターのユーザーは、必要に応じてベアメタル方式でコアを展開できます。 行列とテンソル演算、および変換の演算アクセラレータは、外部向け API として openACC と openCL を使用しますが、CUDA をネイティブ コマンド セットに変換する変換レイヤーを利用できます。

スケールアウトの改善の背後にあるテクノロジについて詳しく教えてください。
スケールアウトの鍵は通信であり、さらに重要なのは、低遅延で高帯域幅の通信であると考えています。 その結果、ブリッジ、インターフェイス アダプター、およびインターフェイス コンバーターを介した通信階層の不要なレイヤーのために構築したものすべてを見直しました。 必要かつ可能な限り、それらをすべて削除しました。 その結果、当社のアーキテクチャ内の XNUMX つ以上の要素間の通信は、バンプとボール数の制限、および CML タイプの高速シリアル リンクを必要とするプリント回路基板 (PCB) を横断する必要性を考慮して、可能な限り最高の帯域幅を提供します。 . ただし、可能な限り短い FLITS と相応の符号化を使用します。どちらも光通信と電気通信を可能にします。 私たちが設計したインターフェースは、わずかなライセンス料で、使用に関心のある人なら誰でも広く採用することができます。 クラス最高の帯域幅を提供するのに十分な幅があり、シックス ナイン リージョンでのシステム可用性のための回復力とエラー検出機能を可能にします。 また、XNUMX階層までのネットワークのトポロジーを自律的に認識できるスマートなインターフェースであり、パートナーが欲しいが独自に設計できない場合に備えて、独自のチップレットになるように設計されています。デザイン。

Abacus Semi チップはいつ発売されますか?
お客様やパートナーと協力して、3 年の第 2025 四半期にプロトタイプのテープアウトを確保し、1 年の第 2026 四半期に FCS の量産セットを確保するよう取り組んでいます。

また読む:

CTO インタビュー: Tech-X Corporation の John R. Cary

Semiwiki CEO インタビュー: Planorama Design の Matt Genovese

CEO インタビュー: Applied Brain Research Inc. の Chris Eliasmith 博士と Peter Suma 博士

この投稿を共有する:

スポット画像

最新のインテリジェンス

スポット画像