AI コンピューティングの高コストを乗り越える

ジェネレーティブ AI ブームはコンピューティングバウンドです。より多くのコンピューティングを直接追加すると、より優れた製品が得られるという独自の特性があります。通常、R&D への投資は、製品の価値とより直接的に結びついており、その関係は著しく劣っています。しかし、これは現在の人工知能ではそうではなく、その結果、今日の業界を動かしている主な要因は、単にトレーニングと推論のコストです.

本当の数字はわかりませんが、信頼できる情報源から、コンピューティングの供給が非常に制限されており、需要がそれを 10 倍上回っていると聞いています (!)。 最小の総コストでコンピューティングリソースにアクセスできることは、AI 企業の成功の決定要因となっています。.

実際、多くの企業が調達した総資本の 80% 以上をコンピューティングリソースに費やしています。

この投稿では、AI 企業のコスト要因を分析してみます。もちろん、絶対数は時間の経過とともに変化しますが、コンピューティングリソースへのアクセスに縛られている AI 企業がすぐに解放されるとは考えていません。したがって、うまくいけば、これはランドスケープを通して考えるのに役立つフレームワークです.

AI モデルの計算コストが非常に高いのはなぜですか?

生成 AI モデルにはさまざまな種類があり、推論とトレーニングのコストはモデルのサイズとタイプによって異なります。幸いなことに、現在最も人気のあるモデルはほとんどがトランスフォーマーベースのアーキテクチャであり、GPT-3、GPT-J、BERT などの一般的な大規模言語モデル (LLM) が含まれています。変換器の推論と学習の操作の正確な数はモデル固有ですが ( 本論文)、モデルのパラメーター数 (つまり、ニューラルネットワークの重み) と入力および出力トークンの数のみに依存する、かなり正確な経験則があります。

トークンは基本的に、数文字の短いシーケンスです。それらは単語または単語の一部に対応します。トークンの直感をつかむ最善の方法は、公開されているオンライントークナイザー (たとえば、 OpenAI）。 GPT-3 の場合、トークンの平均長は4文字.

トランスフォーマーの経験則では、モデルのフォワードパス (つまり、推論) は、 p 長さの入力および出力シーケンスのパラメータ n トークン各, 約かかります 2*n*p 浮動小数点演算 (フロップ)¹。同じモデルのトレーニングには約 6*p トークンあたり FLOPS (つまり、追加のバックワードパスにはさらに XNUMX つの操作が必要です²）。これにトレーニングデータ内のトークンの量を掛けることで、合計トレーニングコストを概算できます。

Transformer のメモリ要件も、モデルのサイズによって異なります。推論には、 p メモリに収まるモデルパラメータ。学習 (つまり逆伝播) では、順方向パスと逆方向パスの間のパラメーターごとに追加の中間値を格納する必要があります。 32 ビットの浮動小数点数を使用すると仮定すると、これはパラメーターごとに追加の 8 バイトです。 175 億のパラメーターモデルをトレーニングするには、16 テラバイトを超えるデータをメモリに保持する必要があります。これは、現在存在する GPU を超えており、モデルを複数のカードに分割する必要があります。推論とトレーニングに必要なメモリは、より短い長さの浮動小数点値を使用することで最適化できます。8 ビットが一般的になり、近い将来には XNUMX ビットが予想されます。

上の表には、いくつかの一般的なモデルのサイズとコンピューティングコストが示されています。 GPT-3 には約 175 億のパラメーターがあり、1,024 トークンの入力と出力の場合、約 350 兆回の浮動小数点演算 (テラフロップまたは TFLOPS) の計算コストが発生します。 GPT-3 のようなモデルのトレーニングには、約 3.14*10^23 の浮動小数点演算が必要です。 Meta の LLaMA のような他のモデルにはさらに高い要件を計算します。このようなモデルのトレーニングは、これまで人類が行ってきた計算集約型のタスクの XNUMX つです。

要約すると、基礎となるアルゴリズムの問題は非常に計算が難しいため、AI インフラストラクチャは高価です。 3 万のエントリを持つデータベーステーブルを並べ替えるアルゴリズムの複雑さは、GPT-XNUMX で XNUMX つの単語を生成する複雑さに比べれば取るに足らないものです。これは、ユースケースを解決する最小のモデルを選択する必要があることを意味します。

幸いなことに、トランスフォーマーの場合、特定のサイズのモデルが消費する計算量とメモリ量を簡単に見積もることができます。そして、適切なハードウェアを選択することが次の考慮事項になります。

GPU の時間とコストの議論

計算の複雑さはどのように時間に変換されますか? プロセッサコアは通常、1 サイクルあたり 2 ～ 3 命令を実行できます。デナードスケーリング. 並列アーキテクチャを利用せずに単一の GPT-3 推論操作を実行すると、350 TFLOPS/(3 GHz*1 FLOP) または 116,000 秒、または 32 時間のオーダーがかかります。これは非常に非現実的です。代わりに、このタスクを加速する特殊なチップが必要です。

実際には、今日のすべての AI モデルは、非常に多数の特殊なコアを使用するカードで実行されます。たとえば、NVIDIA A100 GPU には 512 個の「テンソルコア」があり、4 サイクルで 4×64 行列の乗算 (128 回の乗算と加算、または XNUMX FLOPS に相当) を実行できます。 AI アクセラレータカードは、もともとデスクトップゲーム用に開発されたアーキテクチャであるため、GPU (グラフィックスプロセッシングユニット) と呼ばれることがよくあります。将来的には、AI がますます独自の製品ファミリーになると予想しています。

A100 の公称性能は 312 TFLOPS 理論的には、GPT-3 の推論を約 1 秒に短縮します。ただし、これはいくつかの理由から単純化しすぎた計算です。まず、ほとんどのユースケースでは、ボトルネックは GPU の計算能力ではなく、特殊なグラフィックスメモリからテンソルコアにデータを取得する機能です。次に、175 億の重みは 700GB を占有し、どの GPU のグラフィックスメモリにも収まりません。パーティショニングやウェイトストリーミングなどの手法を使用する必要があります。そして第 16 に、計算を高速化するために使用されている多くの最適化 (たとえば、FP8、FPXNUMX、またはスパース行列などのより短い浮動小数点表現を使用する) があります。しかし、全体として、上記の計算により、今日の LLM の全体的な計算コストが直感的にわかります。

変換モデルのトレーニングには、推論を行う場合のトークンあたり約 300 倍の時間がかかります。ただし、トレーニングデータセットが推論プロンプトよりも約 1 億倍大きい場合、トレーニングには XNUMX 億倍の時間がかかります。単一の GPU では、トレーニングに数十年かかります。実際には、これは専用のデータセンター内の大規模なコンピューティングクラスター上で行われるか、おそらくクラウド内で行われます。また、更新された重みをノード間で交換する必要があるため、トレーニングは推論よりも並列化が困難です。 GPU 間のメモリと帯域幅は、高速相互接続と専用ファブリックが一般的であるため、はるかに重要な要素になることがよくあります。非常に大規模なモデルをトレーニングする場合、適切なネットワーク設定を作成することが主な課題になる可能性があります。将来を見据えると、AI アクセラレータは、カード上またはチップ上でさえもネットワーク機能を備えています。

この計算の複雑さはどのようにコストに変換されるのでしょうか? 上で見たように、A3 で約 1 秒かかる GPT-100 推論では、0.0002 トークンに対して $0.0014 から $1,000 の生のコンピューティングコストが発生します (これは、OpenAI の $0.002/1000 トークンの価格と比較されます)。 100 日 XNUMX の推論リクエストを生成するユーザーは、年間数ドルの費用がかかります。これは非常に低価格であり、人間によるテキストベースの AI のほとんどのユースケースを経済的に実行可能にします。

トレーニング 一方、GPT-3 ははるかに高価です。上記のレートで 3.14*10^23 FLOPS の計算コストのみを再度計算すると、A560,000 カードで 100 ドルの見積もりが得られます。 シングルトレーニングラン. 実際には、トレーニングでは GPU でほぼ 100% の効率を得ることはできません。ただし、最適化を使用してトレーニング時間を短縮することもできます。 GPT-3 トレーニングコストのその他の見積もりは、 $500,000 〜へ $ 4.6万ドル、ハードウェアの前提に応じて。これは XNUMX 回の実行のコストであり、全体のコストではないことに注意してください。複数の実行が必要になる可能性が高く、クラウドプロバイダーは長期的なコミットメントを求めます (これについては以下で詳しく説明します)。 最先端のモデルのトレーニングには依然として費用がかかりますが、十分な資金のあるスタートアップなら手の届く範囲です。

要約すると、今日のジェネレーティブ AI には、AI インフラストラクチャへの大規模な投資が必要です。これが近い将来に変わると信じる理由はありません。 GPT-3 のようなモデルのトレーニングは、人類がこれまでに行った中で最も計算集約的なタスクの XNUMX つです。 GPU が高速化され、トレーニングを最適化する方法が見つかりましたが、AI の急速な拡大により、これらの効果は両方とも打ち消されています。

AI インフラストラクチャに関する考慮事項

ここまで、AI モデルのトレーニングと推論を行うために必要な規模と、それらを駆動する基本的なパラメーターについて、ある程度の直感を提供しようとしました。そのコンテキストを踏まえて、使用する AI インフラストラクチャを決定する方法に関する実用的なガイダンスを提供したいと思います。

外部インフラストラクチャと社内インフラストラクチャ

それに直面しましょう: GPU はクールです。多くのエンジニアやエンジニアリング志向の創業者は、独自の AI ハードウェアをプロビジョニングすることに偏見を持っています。それは、モデルトレーニングをきめ細かく制御できるという理由だけでなく、大量のコンピューティングパワーを利用することに何か楽しみがあるからです (展示品A).

しかし、現実は、 多くのスタートアップ、特にアプリ企業は、独自の AI インフラストラクチャを構築する必要はありません。 代わりに、OpenAI や Hugging Face (言語用) や Replicate (画像生成用) などのホストされたモデルサービスにより、創業者は基盤となるインフラストラクチャやモデルを管理する必要なく、製品市場適合性を迅速に検索できます。

これらのサービスは非常に優れているため、多くの企業が卒業することはありません。開発者は、迅速なエンジニアリングと高次の微調整の抽象化 (つまり、API 呼び出しによる微調整) を通じて、モデルのパフォーマンスを有意に制御できます。これらのサービスの価格は消費ベースであるため、多くの場合、個別のインフラストラクチャを実行するよりも安価です。 50 万ドル以上の ARR を生成し、1 億ドル以上の価値があるアプリ企業が、内部でホストされたモデルサービスを実行しているのを見てきました。

反対に、一部のスタートアップ、特に新しい基盤モデルをトレーニングしたり、垂直統合された AI アプリケーションを構築したりする人 — 独自のモデルを直接実行することは避けられません GPU 上。モデルが事実上製品であり、チームが「モデルと市場の適合性」を探しているため、または特定の機能を達成するため、または限界費用を大規模に削減するために、トレーニングや推論をきめ細かく制御する必要があるためです。いずれにせよ、インフラストラクチャを管理することは、競争上の優位性の源になる可能性があります。

クラウドとデータセンターの構築

ほとんどの場合、クラウドは AI インフラストラクチャに適した場所です。初期費用の削減、スケールアップとスケールダウンの機能、地域での可用性、および独自のデータセンターの構築から気を散らすことが少ないことは、ほとんどのスタートアップ企業や大企業にとって魅力的です.

ただし、この規則にはいくつかの例外があります。

非常に大規模に運用している場合は、独自のデータセンターを運用する方が費用対効果が高くなる可能性があります。正確な価格は、地理的な場所とセットアップによって異なりますが、通常、年間 50 万ドル以上のインフラストラクチャ費用が必要です。
クラウドプロバイダーから入手できない非常に特殊なハードウェアが必要です。たとえば、広く利用されていない GPU タイプや、通常とは異なるメモリ、ストレージ、ネットワークの要件などです。
地政学的な考慮事項に受け入れられるクラウドを見つけることはできません。

独自のデータセンターを構築したい場合は、独自のセットアップ用の GPU の包括的な価格/性能分析が行われています (例: ティム・デトマーの分析）。カード自体のコストとパフォーマンスに加えて、ハードウェアの選択は、電力、スペース、および冷却にも依存します。たとえば、3080 枚の RTX 100 Ti カードを組み合わせると、生のコンピューティング能力は A700 と同様ですが、それぞれの消費電力は 300W に対して 3,500W です。 0.10 年間のライフサイクルで 3080 ドル/kWh の市場レートで 2 kWh の電力差があると、RTX1,000 Ti のコストは約 XNUMX 倍 (約 XNUMX ドル) 増加します。

以上のことから、スタートアップの大多数がクラウドコンピューティングを使用することが予想されます。

クラウドサービスプロバイダーの比較

アマゾンウェブサービス (AWS)、Microsoft Azure、Google クラウドプラットフォーム (GCP) はすべて GPU インスタンスを提供していますが、新しいプロバイダーも特に AI ワークロードに焦点を当てているようです。多くの創業者がクラウドプロバイダーを選択するために使用しているフレームワークを次に示します。

価格： 以下の表は、7 年 2023 月 XNUMX 日時点での多数の主要および小規模な専門クラウドの価格を示しています。インスタンスは、ネットワーク帯域幅、データ送信コスト、CPU およびネットワークからの追加コストの点でかなり異なるため、このデータは単なる目安です。割引、およびその他の要因。

特定のハードウェアの計算能力はコモディティです。単純に、かなり均一な価格を期待しますが、そうではありません。クラウド間にはかなりの機能の違いがありますが、オンデマンドの NVIDIA A100 の価格設定がプロバイダーによって約 4 倍異なることを説明するには不十分です。

価格スケールの上限にある大規模なパブリッククラウドは、ブランドの評判、実証済みの信頼性、および幅広いワークロードを管理する必要性に基づいて割増料金を請求します。小規模な専門 AI プロバイダーは、専用のデータセンター (Coreweave など) を運営するか、他のクラウド (Lambda Labs など) のアービトラージを行うことで、低価格を提供します。

実際には、大規模な購入者のほとんどは、クラウドプロバイダーと直接価格を交渉し、多くの場合、最低支出要件と最低時間の約束を約束します (1 ～ 3 年を見てきました)。交渉後、クラウド間の価格差は多少縮小しますが、上記の表のランキングは比較的安定しています. 小規模な企業は、多額の費用を負担しなくても、専門クラウドから積極的な価格設定を取得できることに注意することも重要です。

在庫: 最も強力な GPU (Nvidia A100 など) は、過去 12 か月以上にわたって一貫して供給不足です。

上位 XNUMX つのクラウドプロバイダーが、その大きな購買力とリソースプールを考えると、最高の可用性を備えていると考えるのは当然です。しかし、少し驚くべきことに、多くのスタートアップはそれが真実であることに気付いていません。大規模なクラウドには多くのハードウェアがありますが、満たす必要のある大きな顧客のニーズもあり (たとえば、Azure は ChatGPT のプライマリホストです)、需要を満たすために常に容量を追加/リースしています。一方、Nvidia は、新しい専門プロバイダーへの割り当てを含め、ハードウェアを業界全体で広く利用できるようにすることを約束しました。（彼らは公平を期すためと、競合する少数の大口顧客への依存を減らすためにこれを行っています。）

その結果、多くのスタートアップは、最先端の Nvidia H100 を含むより多くの利用可能なチップを小規模なクラウドプロバイダーで見つけています。新しいインフラストラクチャ企業と協力する場合は、ハードウェアの待ち時間を短縮し、その過程で費用を節約できる可能性があります。

コンピューティング配信モデル: 今日の大規模なクラウドでは、専用の GPU を備えたインスタンスしか提供されていません。その理由は、GPU の仮想化がまだ解決されていない問題だからです。特殊な AI クラウドは、コンテナーやバッチジョブなどの他のモデルを提供し、インスタンスの起動と破棄のコストを負担することなく個々のタスクを処理できます。このモデルに慣れている場合は、コストを大幅に削減できます。

ネットワーク相互接続: 特にトレーニングの場合、ネットワーク帯域幅はプロバイダー選択の主要な要素です。特定の大規模モデルをトレーニングするには、NVLink などのノード間に専用ファブリックを備えたクラスターが必要です。画像生成の場合、エグレストラフィック料金も主要なコスト要因になる可能性があります。

顧客サポート： 大規模なクラウドプロバイダーは、何千もの製品 SKU にわたって膨大な数の顧客にサービスを提供しています。大口顧客でない限り、カスタマーサポートの注意を引いたり、問題を解決したりするのは難しい場合があります。一方、多くの専門的な AI クラウドは、小規模な顧客に対しても迅速で応答性の高いサポートを提供します。これは、小規模で運用されていることも一因ですが、ワークロードがより均一であるため、AI 固有の機能やバグに集中する動機が強くなっています。

GPU の比較

他の条件がすべて同じであれば、トップエンドの GPU がほぼすべてのワークロードで最高のパフォーマンスを発揮します。ただし、下の表からわかるように、最高のハードウェアはかなり高価です。特定のアプリケーションに適したタイプの GPU を選択することで、コストを大幅に削減でき、ビジネスモデルの成功と失敗を分ける可能性があります。

リストのどこまで進むかを決定すること、つまり、アプリケーションにとって最も費用対効果の高い GPU の選択肢を決定することは、主に技術的な決定であり、この記事の範囲を超えています。ただし、最も重要な選択基準のいくつかを以下で共有します。

トレーニングと推論: 上記の最初のセクションで説明したように、Transformer モデルをトレーニングするには、モデルの重みに加えて、トレーニング用に 8 バイトのデータを保存する必要があります。これは、12 GB のメモリを搭載した一般的なハイエンドコンシューマー GPU を使用して、4 億のパラメーターモデルをトレーニングすることはほとんどできないことを意味します。実際には、大規模なモデルのトレーニングは、できればサーバーごとに多数の GPU、大量の VRAM、およびサーバー間の高帯域幅接続 (つまり、トップエンドのデータセンター GPU を使用して構築されたクラスター) を備えたマシンのクラスターで行われます。

具体的には、多くのモデルは NVIDIA H100 で最も費用対効果が高くなりますが、現時点では見つけるのが難しく、通常は 100 年以上の長期契約が必要です。 NVIDIA AXNUMX は現在、ほとんどのモデルトレーニングを実行しています。見つけるのは簡単ですが、大規模なクラスターの場合は、長期的なコミットメントが必要になる場合もあります。

メモリ要件： 大規模な LLM のパラメータ数は多すぎて、どのカードにも収まりません。それらは複数のカードに分割する必要があり、トレーニングと同様のセットアップが必要です。つまり、LLM 推論でも H100 または A100 が必要になる可能性があります。ただし、小さいモデル (例: Stable Diffusion) では、必要な VRAM がはるかに少なくなります。 A100 は依然として人気がありますが、スタートアップが A10、A40、A4000、A5000、A6000、さらには RTX カードを使用しているのを見てきました。

ハードウェアサポート： 私たちが話した企業のワークロードの大部分は NVIDIA で実行されていますが、一部の企業は他のベンダーで実験を始めています。最も一般的なのは Google TPU ですが、Intel の Gaudi 2 も勢いを増しているようです。これらのベンダーの課題は、モデルのパフォーマンスが、これらのチップのソフトウェア最適化の可用性に大きく依存することが多いことです。パフォーマンスを理解するには、おそらく PoC を実行する必要があります。

レイテンシ要件: 一般に、待ち時間の影響を受けにくいワークロード (バッチデータ処理やインタラクティブな UI 応答を必要としないアプリケーションなど) では、それほど強力でない GPU を使用できます。これにより、コンピューティングコストを 3 ～ 4 倍削減できます (たとえば、AWS での A100 と A10 の比較)。一方、ユーザー向けのアプリは、多くの場合、魅力的なリアルタイムのユーザーエクスペリエンスを提供するために、最高級のカードを必要とします。コストを管理可能な範囲に抑えるには、多くの場合、モデルの最適化が必要です。

スパイクネス: ジェネレーティブ AI の企業は、テクノロジーが非常に新しくエキサイティングであるため、需要が劇的に急増することがよくあります。新製品のリリースに基づいて、要求量が 10 日で 50 倍に増加したり、週に XNUMX% 増加したりすることは珍しくありません。ローエンドの GPU では、より多くの計算ノードがオンデマンドで利用できる可能性が高いため、これらのスパイクの処理は多くの場合簡単です。この種のトラフィックがエンゲージメントの低いユーザーや定着率の低いユーザーからのものである場合は、パフォーマンスを犠牲にして低コストのリソースで処理することも理にかなっています。

モデルの最適化とスケジューリング

ソフトウェアの最適化は、モデルの実行時間に大きな影響を与える可能性があり、10 倍になることも珍しくありません。ただし、特定のモデルとシステムでどの方法が最も効果的かを判断する必要があります。

一部の手法は、かなり幅広いモデルで機能します。より短い浮動小数点表現 (つまり、元の FP16 に対して FP8 または FP32) または量子化 (INT8、INT4、INT2) を使用すると、多くの場合、ビットの削減に比例して速度が向上します。これにはモデルの変更が必要になる場合もありますが、混合精度またはより短い精度での作業を自動化するテクノロジがますます利用可能になっています。ニューラルネットワークの剪定は、値の低い重みを無視することで、重みの数を減らします。これは、効率的な疎行列乗算と合わせて、最新の GPU で大幅な高速化を実現できます。別の最適化手法のセットは、メモリ帯域幅のボトルネックに対処します (たとえば、モデルの重みをストリーミングすることによって)。

その他の最適化は、モデル固有です。たとえば、Stable Diffusion は、推論に必要な VRAM の量を大幅に改善しました。さらに別のクラスの最適化は、ハードウェア固有です。 NVIDIA の TensorML には多数の最適化が含まれていますが、NVIDIA ハードウェアでのみ機能します。最後になりましたが、AI タスクのスケジューリングは、パフォーマンスの大きなボトルネックや改善を生み出す可能性があります。重みのスワッピングを最小限に抑える方法でモデルを GPU に割り当て、複数の GPU が利用可能な場合はタスクに最適な GPU を選択し、事前にワークロードをバッチ処理してダウンタイムを最小限に抑えることは、一般的な手法です。

結局のところ、モデルの最適化はまだ黒魔術のようなものであり、私たちが話しているスタートアップの大半は、これらのソフトウェアの側面のいくつかを支援するためにサードパーティと協力しています. 多くの場合、これらは従来の MLops ベンダーではなく、特定の生成モデル (OctoML や SegMind など) の最適化を専門とする企業です。

AI インフラストラクチャのコストはどのように変化しますか?

過去数年間、私たちは両方の指数関数的な成長を見てきましたモデルパラメータ & GPU の計算能力. この傾向が続くかどうかは不明です。

今日では、最適なパラメータ数とトレーニングデータセットのサイズの間に関係があることが広く受け入れられています (Deepmind のチンチラこれについてはさらに作業してください）。今日の最高のLLMは、一般的なクロール (4.5 億の Web ページのコレクション、または存在するすべての Web ページの約 10%)。トレーニングコーパスには、Wikipedia と書籍のコレクションも含まれていますが、どちらもはるかに小さいものです (存在する書籍の総数は、 100億くらいしかない）。ビデオやオーディオコンテンツの書き起こしなど、他のアイデアも提案されていますが、いずれもサイズが大きく異なります。すでに使用されているものよりも 10 倍大きい非合成トレーニングデータセットを取得できるかどうかは明らかではありません。

GPU のパフォーマンスは向上し続けますが、速度は遅くなります。ムーアの法則はそのままで、より多くのトランジスタとより多くのコアを使用できますが、電力と I/O が制限要因になりつつあります。さらに、最適化のための容易な成果の多くが選択されています。

ただし、これは、コンピューティング能力に対する需要の増加が見込めないことを意味するものではありません。モデルとトレーニングセットの成長が鈍化しても、AI 業界の成長と AI 開発者の数の増加により、より多くのより高速な GPU に対する需要が高まるでしょう。 GPU 容量の大部分は、モデルの開発段階で開発者によるテストに使用され、この需要は人員に比例して拡大します。 現在の GPU 不足が近い将来に解消される兆しはありません。

この継続的な AI インフラストラクチャの高コストは、新規参入者が十分な資金を持つ既存企業に追いつくことを不可能にする溝を作るでしょうか? この質問に対する答えはまだわかりません。現在、LLM のトレーニングコストは堀のように見えるかもしれませんが、Alpaca や Stable Diffusion などのオープンソースモデルは、これらの市場がまだ初期段階にあり、急速に変化する可能性があることを示しています。時間の経過とともに、新しい AI ソフトウェアスタックのコスト構造 (以前の投稿を参照してください) 従来のソフトウェア業界のように見え始めるかもしれません。

最終的には、これは良いことです。歴史は、これが急速なイノベーションと起業家の創業者のための多くの機会を備えた活気のあるエコシステムにつながることを示しています.

Moin Nadeem と Shangda Xu の執筆過程での意見と指導に感謝します。

¹ ここでの直感は、ニューラルネットワークの任意のパラメーター (つまり、重み) に対して、推論操作 (つまり、フォワードパス) は、パラメーターごとに XNUMX つの浮動小数点操作を実行する必要があるということです。まず、ニューラルネットワークの入力ノードの値にパラメーターを乗算します。次に、合計の結果をニューラルネットワークの出力ノードに追加します。エンコーダーのパラメーターは入力トークンごとに XNUMX 回使用され、デコーダーのパラメーターは出力トークンごとに XNUMX 回使用されます。モデルが持っていると仮定すると p パラメータと入力と出力の両方に長さがある n トークン, 浮動小数点演算の合計は n*p. モデルには他にも多くの操作 (正規化、埋め込みのエンコード/デコードなど) がありますが、それらの実行にかかる時間は比較的短いものです。

² 学習には、最初に上記のように変換器を介した順方向パスが必要です。その後、勾配を計算して重みを調整するために、パラメーターごとに 3 つの追加操作が発生する逆方向パスが続きます。勾配を計算するには、フォワードパスから計算されたノード値を保持する必要があることに注意してください。 GPT-XNUMXの場合、 言語モデルはほとんどショットの学習者ではありません トレーニング費用について説明します。

* * *

ここに示されている見解は、引用された個々のAH Capital Management、LLC（「a16z」）の担当者の見解であり、a16zまたはその関連会社の見解ではありません。ここに含まれる特定の情報は、a16zが管理するファンドのポートフォリオ企業を含むサードパーティの情報源から入手したものです。 a16zは、信頼できると思われる情報源から取得したものですが、そのような情報を独自に検証しておらず、情報の永続的な正確性や特定の状況に対するその適切性について表明していません。さらに、このコンテンツにはサードパーティの広告が含まれる場合があります。 a16zはそのような広告をレビューしておらず、そこに含まれる広告コンテンツを推奨していません。

このコンテンツは情報提供のみを目的として提供されており、法律、ビジネス、投資、または税務に関するアドバイスとして信頼されるべきではありません。これらの問題については、ご自身のアドバイザーにご相談ください。証券またはデジタル資産への言及は、説明のみを目的としたものであり、投資の推奨または投資顧問サービスの提供を構成するものではありません。さらに、このコンテンツは、投資家または将来の投資家による使用を目的としたものではなく、a16zが管理するファンドへの投資を決定する際にいかなる状況においても信頼されない場合があります。（a16zファンドへの投資の申し出は、私募覚書、サブスクリプション契約、およびそのようなファンドの他の関連文書によってのみ行われ、その全体を読む必要があります。）言及、参照、または記載されているのは、a16zが管理する車両へのすべての投資を代表するものではなく、投資が有益である、または将来行われる他の投資が同様の特性または結果をもたらすという保証はありません。アンドリーセンホロウィッツが管理するファンドが行った投資のリスト（発行者がa16zに公開を許可していない投資、および公開されているデジタル資産への未発表の投資を除く）は、https：//a16z.com/investmentsで入手できます。 /。

記載されているチャートおよびグラフは、情報提供のみを目的としており、投資を決定する際に信頼することはできません。過去の実績は将来の結果を示すものではありません。内容は、示された日付の時点でのみ話されています。これらの資料に記載されている予測、推定、予測、目標、見通し、および/または意見は、予告なしに変更される場合があり、他の人が表明した意見と異なる場合があります。その他の重要な情報については、https：//a16z.com/disclosuresを参照してください。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
情報源： https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute/

生成的データインテリジェンス

AI コンピューティングの高コストを乗り切る

AI モデルの計算コストが非常に高いのはなぜですか?

GPU の時間とコストの議論