ゼファーネットのロゴ

Nvidia ソフトウェア幹部の Kari Briski 氏へのインタビュー

日付:

インタビュー Nvidia の GPU テクノロジ カンファレンスは先週閉幕し、同社の Blackwell チップと大いに騒がれている AI の驚異、そしてそれが意味するすべての高価な GPU ハードウェアについての情報をもたらしました。

機械学習モデルによって実現される自動化によって、多くの創造的な取り組みが改善とは言わないまでも、より迅速に行えるという考えに基づいて、同社の株価が記録的な高値を更新しているという話題が社内で広まっている。

それはまだ市場でテストされています。

かつてジョージ・サンタヤナ 書いた:「過去を思い出せない者は、それを繰り返す運命にある。」よく繰り返される言葉です。しかし、過去のことを思い出しても、AI モデルが特別なものになるわけではありません。彼らは過去を思い出すことができますが、それでも要求に応じて、時には間違ってそれを繰り返すことを非難されています。

それでも、多くの人、特に AI ハードウェアやクラウド サービスを販売する企業は全能の AI を信頼しています。 とりわけ、NVIDIA はそれに大きな賭けをしています。 そう 登録 GPU カンファレンスを少し訪れて、大騒ぎの内容を確認しました。それは確かに、木曜日に展示ホールで提供されたレモンバーに関するものではなく、その多くは展示会場のゴミ箱に未完成のまま新規公開を終了した。

会話のほうがはるかに魅力的でした 登録 Nvidia の AI および HPC ソフトウェア開発キットの製品管理担当副社長、Kari Briski と対談しました。彼女は、会社の基盤モデル、ライブラリ、SDK、そして新たに発表されたようなトレーニングと推論を扱うマイクロサービスのソフトウェア製品管理を率いています。 NIM マイクロサービスとより確立されたサービス ニモ 導入フレームワーク。

登録: 企業はクラウドやオンプレミスでこれらのマイクロサービスをどのように利用するのでしょうか?

ブリスキー: 実際、それが私たちが NIM を構築した理由の美しさです。 「NIM」というのはちょっと面白いですね。しかし、私たちはずっと前にこの旅を始めました。私は推論を始めたときからずっと推論に取り組んできました。1.0 年に始めたのは TensorRT 2016 だったと思います。

長年にわたり、私たちは推論スタックを拡大し、コンピューター ビジョンやディープ レコメンダー システムと音声、自動音声認識と音声合成、そして現在では大規模な言語モデルに至るまで、あらゆる種類のワークロードについてさらに学習してきました。これは本当に開発者に焦点を当てたスタックです。そして今、企業は OpenAI と ChatGPT を [見た] ため、これらの大規模な言語モデルを企業データの隣または企業アプリケーション内で実行する必要性を理解しています。

平均的なクラウド サービス プロバイダーは、マネージド サービスのために、推論や最適化技術に取り組む何百人ものエンジニアを抱えています。企業にはそれができません。彼らは価値実現までの時間をただちに把握する必要があります。そのため、私たちは TensorRT、大規模言語モデル、Triton Inference Server、標準 API、ヘルス チェックで長年にわたって学んだすべてをカプセル化しました。 [アイデアは] これらすべてをカプセル化して、5 分以内にゼロから大規模な言語モデルのエンドポイントに到達できるようにすることです。

[オンプレミスとクラウド データセンターに関して]、当社の顧客の多くはハイブリッド クラウドです。彼らはコンピューティングを好みます。そのため、データをマネージド サービスに送信する代わりに、データの近くでマイクロサービスを実行し、必要な場所で実行できます。

登録: Nvidia の AI 用ソフトウェア スタックは、プログラミング言語の観点からどのようなものですか?やはり主に CUDA、Python、C、C++ でしょうか?さらなるスピードと効率性を求めて他を探していますか?

ブリスキー: 私たちは常に開発者が使用している場所を調査しています。それが常に私たちの鍵でした。そのため、Nvidia に入社して以来、私は高速化された数学ライブラリに取り組んできました。まず、並列処理を実現するには CUDA でプログラムする必要がありました。そして、C API がありました。 Python API もありました。つまり、開発者がどこにいてもプラットフォームを利用できるということです。現時点では、開発者は、curl コマンドや Python コマンドなどの非常に単純な API エンドポイントをヒットしたいだけです。したがって、それは非常にシンプルでなければなりません。なぜなら、今日私たちが開発者と会うのはそういう場所だからです。

登録: GPU 計算を効率化する上で、CUDA が大きな役割を果たしているのは明らかです。 Nvidia は CUDA を進化させるために何をしていますか?

ブリスキー: CUDA はすべての GPU の基盤です。これは、CUDA 対応の CUDA プログラム可能な GPU です。数年前、これらのドメイン固有言語があったため、私たちはそれを CUDA-X と呼んでいました。したがって、医療画像処理[アプリケーション]をお持ちであれば、 クシム。自動音声認識機能がある場合は、その最後に CUDA 加速ビーム検索デコーダがあります。したがって、CUDA によって高速化されたさまざまな種類のワークロードごとに、これらすべての固有の機能が存在します。私たちは長年にわたってこれらすべての専門ライブラリを構築してきました。 CUDF & cuML、そして、あれこれ。これらすべての CUDA ライブラリは、私たちが長年にわたって構築してきたものの基礎であり、現在はその上に構築しているところです。

登録: Nvidia は、ソフトウェアとハ​​ードウェアの設計方法の観点から、コストをどのように考慮していますか? Nvidia AI Enterprise のようなものでは、GPU あたり毎年 4,500 ドルかかり、これはかなりの金額です。

ブリスキー: まず、中小企業の場合、私たちは常に インセプション プログラム。私たちは常に顧客と協力しています – 90 日間の無料トライアル、それはあなたにとって本当に価値がありますか?本当にそれだけの価値があるのでしょうか?そして、購入時のコストを削減するために、当社は常にソフトウェアを最適化しています。したがって、CPU あたり年間 4,500 ライセンスあたり 100 ドルを購入し、A100 で実行し、明日 HXNUMX で実行する場合、価格は同じになります。コストは [スループットと比較して] 下がります。そのため、私たちは常にこれらの最適化と総所有コストとパフォーマンスをソフトウェアに組み込んでいます。

トレーニングと推論の両方について考えると、トレーニングにはもう少し時間がかかりますが、これらの自動コンフィギュレーターを使用して「どれだけのデータがあるか?」と言うことができます。どれくらいのコンピューティングが必要ですか?どれくらいかかりますか?」したがって、コンピューティングのフットプリントは小さくなりますが、モデルのトレーニングに時間がかかる可能性があります。1 週間でトレーニングしたいですか?それとも1日でトレーニングしますか?したがって、これらのトレードオフを行うことができます。

登録: 現在の問題に関して、特に解決したいことや、克服したい技術的な課題はありますか?

ブリスキー: 現時点ではイベント駆動型です RAG [これは、外部ソースから取得したデータで AI モデルを強化する方法です]。多くの企業は、答えを生成するための古典的なプロンプトだけを考えています。しかし、実際に私たちがやりたいのは、これらの検索拡張された生成システムをすべて [連鎖] することです。なぜなら、自分のこと、そして自分がやり遂げたいタスクのことを考えたとき、次のようになります。「ああ、データベース チームに相談しなければなりません。そして、データベース チームは Tableau チームと話し合う必要があります。ダッシュボードを作ってもらう必要があるのですが、実際にタスクを完了する前に、これらすべての作業が行われる必要があります。これは一種のイベント駆動型 RAG です。 RAG が RAG と会話しているとは言いませんが、本質的には、エージェントが外出して多くの作業を実行し、戻ってくるということです。そして私たちはその頂点に立っています。したがって、2024 年にそれが実現することを本当に楽しみにしていると思います。

登録: Nvidia は独自の AI をドッグフーディングしていますか? AI が社内で役立つと感じたことはありますか?

ブリスキー: 実際、私たちは出発し、昨年、2023 年は探検の年だったので、私が見つけた Nvidia 社内には 150 のチームがありました – もっとたくさんあった可能性があります – そして私たちは、私たちのツールをどのように使用しているか、どのようなものかを言おうとしていましたさまざまなユースケースを検討し、千の花のように学んだことすべてを組み合わせ始め、すべての学んだことをベスト プラクティスとして XNUMX つのリポジトリにまとめました。それは実際に私たちが呼んでいるものとしてリリースしたものです 生成型 AI の例 すべてのベスト プラクティスを 1 か所に集めたかっただけなので、GitHub にあります。

それが私たちが構造的にやったことのようなものです。しかし、明確な例として、私たちはこの本当に素晴らしい論文を書いたと思います。 チップニモ、そして実際には、それはすべて当社の EDA、VLSI 設計チーム、そして彼らが基礎モデルをどのように取得し、当社独自のデータに基づいてトレーニングしたのかに関するものです。当社は VLSI 用に独自のコーディング言語を持っています。そこで彼らは、当社独自の言語を生成できるように、そして当社の VLSI 設計チップのコード作成をよく知らない新しいエンジニアの生産性を支援するために、コパイロット (オープン ソース コード生成モデル) をコーディングしていました。

そしてそれはすべての顧客の共感を呼びました。 SAP に問い合わせてみると、SAP はデータベースに対する独自の SQL のような BOP [バックオーダー処理] を行っています。そして私は、異なる独自言語を使用する他の 3 人の顧客と話をしました。SQL にも数百もの方言があります。したがって、コード生成ができるということは、RAG によってすぐに解決できるユースケースではありません。はい、RAG はドキュメントや一部のコード スニペットの取得に役立ちますが、その言語でトークンを生成するようにトレーニングされていない限り、単にコードを作成することはできません。

登録: 大規模な言語モデルと、それらがアプリケーションと連鎖する方法を見るとき、発生する可能性のある遅延とそれに対処する方法について考えていますか?単に決定木をハードコーディングする方が合理的だと思われる場合はありますか?

ブリスキー: その通りです。特定の質問やプロンプトをするとき、たとえ 1 つの質問であっても、すでに 5 つまたは 7 つのモデルが開始されている可能性があるため、プロンプトの書き換え、ガードレール、取得、および再ランキングを取得できます。それから発電機。これが、NIM が非常に重要である理由です。なぜなら、待ち時間を最適化しているからです。

特定のタスクのセットに適した小規模な言語モデルである SLM があり、最終的にはより大きな精度を得るためにより大きなモデルが必要になる場合があるため、基礎モデルのさまざまなバージョンを提供する理由もそこにあります。しかし、レイテンシ ウィンドウに収まるようにすべてを連鎖させることは、多くのハイパースケール サービスやマネージド サービスについて、私たちが長年にわたって解決してきた問題です。彼らにはこのような待ち時間があり、質問したり検索を行ったりすると、実際には何度も質問が表示されなくなります。そのため、「応答全体の小さな部分ごとのレイテンシ ウィンドウはどれくらいか?」という多くの競合状態が発生しています。はい、私たちは常にそれを観察しています。

ハードコーディングについてのあなたの指摘については、今日、ある顧客とそれについて話したところです。私たちはハードコーディングをはるかに超えています…ダイアログマネージャーを使用して、if-then-elseを使用することもできます。 [しかし]何千ものルールを管理するのは本当に不可能です。それが、私たちがガードレールのようなものが好きな理由です。ガードレールは、古典的なダイアログ マネージャーの一種の代替品であるからです。 「野球について話すな、ソフトボールについて話すな、サッカーについて話すな」と言ってそれらを列挙する代わりに、「スポーツについて話すな」と言うだけで済みます。そして、LLM はスポーツとは何かを理解します。時間が節約され、後でそのコードを管理できるようになるので、非常に優れています。 ®

スポット画像

最新のインテリジェンス

スポット画像