ゼファーネットのロゴ

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。 アマゾン ウェブ サービス

日付:

このブログ投稿は、TII の AI クロス センター ユニットのエグゼクティブ ディレクター兼主任 AI 研究員代理であり、LLM プロジェクトのプロジェクト リーダーである Ebtesam Almazrouei 博士との共著です。

アラブ首長国連邦 (U​​AE) テクノロジー イノベーション インスティテュート (TII)、アブダビの応用研究の柱 先端技術研究評議会は、40 億のパラメーターを備えた基礎的な大規模言語モデル (LLM) である Falcon LLM を開始しました。 TII は、知識の最前線を開拓することに専念する世界有数の研究センターです。 TII の科学者、研究者、エンジニアのチームは、発見科学と革新的なテクノロジーの提供に取り組んでいます。 TII の取り組みは、私たちの社会の将来を保証するブレークスルーに焦点を当てています。 1兆トークンでトレーニングされ、 TIIファルコンLLM 最高のパフォーマンスを誇りながら、驚異的なコスト効率を実現します。 Falcon-40B は、他の高性能 LLM のパフォーマンスに匹敵し、一般公開されているオープンソース モデルのトップにランクされています。 ハグフェイスオープン LLM リーダーボード。 Falcon-40B と Falcon-7B の XNUMX つの異なるサイズでオープンソースとして利用でき、データ前処理とモデル トレーニング ジョブを使用してゼロから構築されました。 アマゾンセージメーカー。 オープンソースの Falcon 40B により、ユーザーは独自のユーザー ニーズに応える AI ツールを構築およびカスタマイズできるため、シームレスな統合が促進され、データ資産の長期保存が保証されます。 モデルの重みはどこにでもダウンロード、検査、展開することができます。

7 月 XNUMX 日より、両方の Falcon LLM が Amazon SageMaker JumpStart でも利用できるようになります。Amazon SageMaker JumpStart は、ML をすぐに始めるのに役立つ事前トレーニングされたモデル、組み込みアルゴリズム、事前構築されたソリューションテンプレートを提供する SageMaker の機械学習 (ML) ハブです。 数回クリックするだけで Falcon LLM を展開して使用できます。 SageMaker スタジオ またはプログラム的に SageMaker Python SDK。 Falcon LLM をデプロイして推論を実行するには、次を参照してください。 SageMaker JumpStart の概要 – Falcon LLM を使用したテキスト生成 ノートブックの例。

TII のエグゼクティブ ディレクター兼 AI クロス センター ユニットのチーフ AI 研究者代理であり、LLM プロジェクトのプロジェクト リーダーである Ebtesam Almazrouei 博士は次のように語っています。

「私たちは、TII が開発した世界トップクラスのオープンソース言語モデルである Falcon-40B の公式オープンソース リリースを誇らしげに発表します。 Falcon-40B は、Hugging Face が管理する公開リーダーボードで LLaMA-65B、StableLM、RedPajama、MPT などの有名なモデルを上回り、特別な微調整なしでその卓越したパフォーマンスを実証しました。」

「この目覚ましい成果は、AI イノベーションの限界を押し広げようとする UAE の献身的な姿勢を反映しています」とアルマズルーエイ博士は続けます。 「Falcon-40B をオープンソース モデルとしてリリースすることで、私たちは研究者、企業、組織にさまざまな分野にわたってその強力な機能を活用する機会を提供します。 Falcon-40B のオープンソース リリースにより、組織はその卓越した機能を活用し、AI 主導のソリューションの進歩を推進できるようになります。 これは、AI イノベーションを促進するという私たちの取り組みにおける重要なマイルストーンであり、UAE の深い科学的貢献を実証するものです。 Falcon-40B の驚くべき可能性を探求するには、次のサイトをご覧ください。 FalconLLM.tii.ae。 Falcon-40B の力を活用して AI の未来を形成し、業界に革命を起こしましょう。」

この投稿では、SageMaker での Falcon LLM トレーニング、データキュレーション、最適化、パフォーマンス、および次のステップについて、Almazrouei 博士と詳しく説明します。

新世代の LLM

LLM は、自然なテキスト シーケンスを完成させるためにトレーニングされたソフトウェア アルゴリズムです。 LLM は、対話するトレーニング データのサイズと量により、要約、質問応答、コンテキスト内学習などを含む優れたテキスト処理能力を備えています。

2020 年初頭、世界中の研究機関がモデル サイズに重点を置き、精度がパラメーターの数と相関していることを観察しました。 たとえば、GPT-3 (2020) と BLOOM (2022) には約 175 億のパラメーターがあり、Gopher (2021) には 230 億のパラメーターがあり、MT-NLG (2021) には 530 億のパラメーターがあります。 2022年には、 ホフマンら。 モデル パラメーターとデータセット サイズ間のコンピューティングの現在のバランスが最適ではないことを観察し、より多くのデータでトレーニングされたより小さなモデルに向けてコンピューティング バジェットのバランスをとることが、より優れたパフォーマンスのモデルにつながる可能性があることを示唆する経験的なスケーリング則を発表しました。 彼らは、70B パラメータの Chinchilla (2022) モデルにガイダンスを実装し、より大きなモデルよりも優れたパフォーマンスを示しました。

SageMaker での LLM トレーニング

SageMaker は、LLM を含む機械学習 (ML) モデルの開発、トレーニング、チューニング、ホスティングのためのマネージド API のコレクションです。 多くの顧客が、次のような LLM ワークロードを SageMaker に依存しています。 スタビリティAI, AI21ラボ, LG AI. SageMakerトレーニング ユーザー定義のハードウェア構成とコードを使用してコンピューティング クラスターをプロビジョニングします。 コンピューティング ジョブは実行ごとに秒数に比例して請求されます。つまり、サービスを使用していないときは、ユーザーは GPU 容量に対して請求されません。 TII は、SageMaker Training API によって提供される一時クラスターを使用して、48 個の NVIDIA A4 GPU に蓄積される最大 24 ml.p384d.100xlarge インスタンスの Falcon LLM をトレーニングしました。 現在、TII は次の Falcon LLM をトレーニングしており、そのトレーニングを 3,136 個の A100 GPU (392 ml.p4d インスタンス) にスケールしました。

科学の質とトレーニング速度の水準を高めるために、プロジェクトのすべての層に前例のない量のカスタムイノベーションが投入されました。 次のセクションでは、深層学習 (DL) トレーニング システムのすべての層で実行される最適化 TII について説明します。

スケーラブルなデータキュレーション

最新世代の LLM は、トレーニング データのサイズと品質によってその強みを発揮します。 チームは、高品質の兆トーク​​ン データセットの作成に特に注意を払いました。 いくつかの SageMaker Training CPU ジョブは、ペタバイト単位の安価でスケーラブルな Web データを、厳選された安全なトレーニング データセットに変換しました。 自動化されたシステムがデータをフィルタリングし、重複を排除しました。 たとえば、ML 分類器は冒涜的な言葉をフィルタリングするために使用されました。 ml.c5.18xlarge (72 vCPU、144 GB RAM) で実行されている CPU ジョブは、SageMaker Training を介したいくつかの API 呼び出しでインスタンス化され、データ変換タスクを実行しました。 チームは、さまざまなユースケースにシングルインスタンス CPU ジョブとマルチインスタンス CPU ジョブの両方を使用しました。 これらのジョブの一部は、それぞれが単一マシン上で数百の並列シェアナッシング アーキテクチャ (SNA) ジョブを使用しており、ワーカー間の同期が必要なタスクのために、チームはマルチインスタンス ジョブを開始し、数十のインスタンスと数千の vCPU に累積しました。 余談ですが、ダウンストリームのデータセット準備タスクでは、チームは 257 つの SageMaker Training ジョブで最大 5.18 ml.c18,504xlarge に達し、累積で 37 vCPU と XNUMX TB のメモリに達しました。

トレーニングのスループットを最大化する

トレーニング コストと市場投入までの時間の両方を最小限に抑えるために、チームは、3 秒あたりに処理され、TFLOPS/GPU で測定されるトレーニング トークンに比例してトレーニング速度を加速するための最適化のいくつかの方向性を追求しました。 チームは、コンパイルされた GPU コードで記述されたカスタム最適化レイヤーを特徴とする、完全にカスタムの 166D 並列 LLM トレーニング フレームワークを使用しました。 チームはさらに高速化するために、独自のカスタム行列乗算の実装まで書きました。 チームはまた、並列通信を基礎となるネットワーク トポロジに適応させるロジックも開発しました。 初期のスケーリング実験中に、TII は 147 GPU の 256B モデルで 173 TFLOPs/GPU、13 GPU の 16B モデルで 2022 TFLOPs/GPU を達成することができました。私たちの知る限り、最速の既知のモデルの TFLOPs はクラウドで達成されました。試験の時期はXNUMX年末。

サーバーレスストレージ

LLM トレーニングはストレージを大量に消費します。 数テラバイトのトレーニング データをトレーニング クラスターに送信する必要があり、数テラバイトのモデル チェックポイントがクラスターから永続ストレージに定期的に戻されます。 チェックポイントは、ジョブの再開時にできるだけ早くトレーニング クラスターに到達する必要もあります。 従来のハイ パフォーマンス コンピューティング (HPC) では、コンピューティング ノードは分散ファイル システムに接続され、POSIX のようなインターフェイスを介して高性能 I/O とスループットを提供します。 AWS では、顧客は定期的に 光沢のためのAmazonFSx この目的のためのファイル システム (詳細については、「 Amazon FSx for LusterおよびAmazon EFSファイルシステムを使用して、Amazon SageMakerでのトレーニングを高速化します)、また、BeeGFS の自己管理使用についても文書化しました。 分散型コンピュータビジョンのケーススタディ。 コストと運用の簡素化を重視したため、チームはファイル システム サーバーの実装と運用を行わず、代わりにサーバーレス オブジェクト ストレージ上にのみ構築するという課題に取り組みました。 Amazon シンプル ストレージ サービス (アマゾンS3)。 カスタム S3 データセット クラスは、AWS SDK for Python (Boto3) を使用して構築され、満足のいくパフォーマンスを提供しながら、科学者が同じコードベース内で I/O エンジニアリングとモデル サイエンスを自律的に反復できるようにしました。

クライアントサイドのイノベーション

LLM プロジェクトが単一のトレーニング ジョブで構成されることはほとんどありません。 最初のテストと経験を実施するには、多数の作業が必要です。 メインの実稼働トレーニングの過程で、構成やソフトウェアのバージョンの更新、パッチの展開、障害からの回復など、いくつかのジョブが連鎖する場合があります。 TII の科学者は、LLM トレーニングに適応したカスタム クライアントを構築するために大規模なエンジニアリングを実施しました。 コードのバージョン管理、Docker イメージの構築、ジョブの起動など、複数の機能を XNUMX つのコマンドにまとめるために、ランチャー クライアントが SageMaker Training SDK の上に構築されました。 さらに、 AWSラムダ サーバーレス コンピューティング機能は、必要に応じてジョブを監視、監視し、介入するように設計されています。

推論品質監査に Slack ボットを使用する

トレーニングの終わりに向けて、チームはモデルを内部ネットワークにデプロイしました。 SageMaker ホスティング GPU エンドポイント リアルタイムのインタラクションのために。 チームは、現実的なフィードバックを取得し、モデルの定性的品質監査を実行するために、対話するための Slack ボットの作成にまで取り組みました。

トレーニングとパフォーマンスのモニタリング

LLM のトレーニングには、CPU、GPU、メモリ リソースなどの大量の計算リソースが必要です。 したがって、TII は、計算リソースの最適な利用とその費用対効果を確保するために、トレーニング ジョブのパフォーマンスとアイドル時間を監視する必要がありました。

自動監視ソリューションを構築するために、TII は以下を使用しました。 アマゾンクラウドウォッチ トレーニング ジョブの GPU、CPU、メモリの使用率を監視するアラーム。 CloudWatch は生データを収集し、SageMaker Training ジョブで使用されている基盤となるコンテナ インスタンスから読み取り可能なほぼリアルタイムのメトリクスに処理します。 その後、これらのメトリクスごとにしきい値を設定し、いずれかのメトリクスがしきい値を下回ると、アラームがトリガーされます。 このアラームは、TII チームにリソース使用率の低下を通知し、リソース使用率の制約を修正するための修正措置を講じることができます。

TII は、リソース使用率の監視に加えて、トレーニング ジョブ リソースのアイドル時間を監視することもできます。 トレーニング ジョブ リソースが長期間アイドル状態になった場合、トレーニング サイクルのどの段階でもボトルネックが発生している可能性があり、手動による調査が必要になります。 場合によっては、リソースの使用率は比較的最適であったものの、トレーニング プロセス自体は進んでいませんでした。 このような場合、TII は CloudWatch アラームを Lambda 関数と統合して、生成されたトレーニング ログをクエリして読み取り、生成されたエラーまたはログ生成プロセスのアイドル状態 (クラスターが停止している) に基づいて自動アクションを実行します。 アラームはトレーニング ジョブを停止するアクションをトリガーします。これにより、リソースが使用されていないときに TII に不必要なコストが発生することがなくなります。

まとめ

SageMaker と独自のカスタム イノベーションを組み合わせて使用​​することで、TII は、技術的なブレークスルー、科学の質、トレーニング速度、操作の簡素化など、さまざまな側面で最先端のモデルをトレーニングすることができました。

「当社の Falcon LLM は、UAE のテクノロジーのリーダーシップを示しており、この地域における AI を活用したイノベーションへの道を切り開きます。 UAE 国家 AI 戦略 2031 に沿って、Falcon LLM のような世界的な技術進歩への UAE の参加は、知識ベースの経済を目指す私たちの旅において重要な要素です。 UAEは、新たな経済的、社会的、教育的機会の創出に役立つAIソリューションに投資し、開発することで、より広範な対話に積極的に関与することを選択しています。 この取り組みの一環として、Falcon LLM のオープンソース リリースは、AI 分野におけるコラボレーションの促進、透明性の促進、イノベーションと研究の支援に対する UAE の取り組みを示しています。 Falcon LLM をオープンソースにすることで、その高度な技術機能に広くアクセスできるようにし、世界中の研究者や組織に力を与えることを目指しています。 この重要な一歩は、AI の進歩を促進するという UAE の取り組みを実証し、世界的な AI コミュニティのリーダーとしての地位を確固たるものとします。 次のステップには、新モデルを目前に控えたAIと先端技術の分野でのさらなる進歩に貢献すること、そしてUAEの組織や企業内で先端AI技術の活用を促進することが含まれる。」

– アルマズルーエイ博士

Falcon LLM について詳しくは、Web サイトをご覧ください。 FalconLLM.tii.ae & ハグフェイスのモデルカード!


著者について

エブテサム・アルマズロウエイ博士 AI クロス センター ユニットのエグゼクティブ ディレクター兼主任 AI 研究者代理であり、TII の LLM プロジェクトのプロジェクト リーダーです。 彼女の仕事は、ヘルスケア、通信、教育、エネルギー、セキュリティに至るまで、複数の業界にわたって AI と高度な技術ソリューションを提供することに重点を置いています。 アルマズルーエイ博士は、LLM の構築とこの分野における UAE の能力強化において極めて重要な役割を果たし、Falcon LLM 構築チームを率いています。 さらに、これまで世界最大のアラビア語 LLM である Noor の開発を主導しました。

ウィル・バドル は、アラブ首長国連邦ドバイに拠点を置く AI/ML ソリューションアーキテクトのシニアマネージャーであり、グローバル Amazon Machine Learning チームの一員として働いています。 ウィルは、革新的な方法でテクノロジーを使用してコミュニティにプラスの影響を与えることに情熱を持っています。 余暇には、ダイビングに行ったり、サッカーをしたり、太平洋の島々を探検したりするのが好きです。

オリヴィエ・クルシャン フランスを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Olivierは、小規模なスタートアップから大企業まで、AWSのお客様が本番環境グレードの機械学習アプリケーションを開発およびデプロイするのを支援します。 余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

スポット画像

最新のインテリジェンス

スポット画像