Technology Innovation Institute が Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニング

このブログ投稿は、TII の AI クロスセンターユニットのエグゼクティブディレクター兼主任 AI 研究員代理であり、LLM プロジェクトのプロジェクトリーダーである Ebtesam Almazrouei 博士との共著です。

アラブ首長国連邦 (UAE) テクノロジーイノベーションインスティテュート (TII)、アブダビの応用研究の柱先端技術研究評議会は、40 億のパラメーターを備えた基礎的な大規模言語モデル (LLM) である Falcon LLM を開始しました。 TII は、知識の最前線を開拓することに専念する世界有数の研究センターです。 TII の科学者、研究者、エンジニアのチームは、発見科学と革新的なテクノロジーの提供に取り組んでいます。 TII の取り組みは、私たちの社会の将来を保証するブレークスルーに焦点を当てています。 1兆トークンでトレーニングされ、 TIIファルコンLLM 最高のパフォーマンスを誇りながら、驚異的なコスト効率を実現します。 Falcon-40B は、他の高性能 LLM のパフォーマンスに匹敵し、一般公開されているオープンソースモデルのトップにランクされています。ハグフェイスオープン LLM リーダーボード。 Falcon-40B と Falcon-7B の XNUMX つの異なるサイズでオープンソースとして利用でき、データ前処理とモデルトレーニングジョブを使用してゼロから構築されました。アマゾンセージメーカー。オープンソースの Falcon 40B により、ユーザーは独自のユーザーニーズに応える AI ツールを構築およびカスタマイズできるため、シームレスな統合が促進され、データ資産の長期保存が保証されます。モデルの重みはどこにでもダウンロード、検査、展開することができます。

7 月 XNUMX 日より、両方の Falcon LLM が Amazon SageMaker JumpStart でも利用できるようになります。Amazon SageMaker JumpStart は、ML をすぐに始めるのに役立つ事前トレーニングされたモデル、組み込みアルゴリズム、事前構築されたソリューションテンプレートを提供する SageMaker の機械学習 (ML) ハブです。数回クリックするだけで Falcon LLM を展開して使用できます。 SageMaker スタジオまたはプログラム的に SageMaker Python SDK。 Falcon LLM をデプロイして推論を実行するには、次を参照してください。 SageMaker JumpStart の概要 – Falcon LLM を使用したテキスト生成ノートブックの例。

TII のエグゼクティブディレクター兼 AI クロスセンターユニットのチーフ AI 研究者代理であり、LLM プロジェクトのプロジェクトリーダーである Ebtesam Almazrouei 博士は次のように語っています。

「私たちは、TII が開発した世界トップクラスのオープンソース言語モデルである Falcon-40B の公式オープンソースリリースを誇らしげに発表します。 Falcon-40B は、Hugging Face が管理する公開リーダーボードで LLaMA-65B、StableLM、RedPajama、MPT などの有名なモデルを上回り、特別な微調整なしでその卓越したパフォーマンスを実証しました。」

「この目覚ましい成果は、AI イノベーションの限界を押し広げようとする UAE の献身的な姿勢を反映しています」とアルマズルーエイ博士は続けます。「Falcon-40B をオープンソースモデルとしてリリースすることで、私たちは研究者、企業、組織にさまざまな分野にわたってその強力な機能を活用する機会を提供します。 Falcon-40B のオープンソースリリースにより、組織はその卓越した機能を活用し、AI 主導のソリューションの進歩を推進できるようになります。これは、AI イノベーションを促進するという私たちの取り組みにおける重要なマイルストーンであり、UAE の深い科学的貢献を実証するものです。 Falcon-40B の驚くべき可能性を探求するには、次のサイトをご覧ください。 FalconLLM.tii.ae。 Falcon-40B の力を活用して AI の未来を形成し、業界に革命を起こしましょう。」

この投稿では、SageMaker での Falcon LLM トレーニング、データキュレーション、最適化、パフォーマンス、および次のステップについて、Almazrouei 博士と詳しく説明します。

新世代の LLM

LLM は、自然なテキストシーケンスを完成させるためにトレーニングされたソフトウェアアルゴリズムです。 LLM は、対話するトレーニングデータのサイズと量により、要約、質問応答、コンテキスト内学習などを含む優れたテキスト処理能力を備えています。

2020 年初頭、世界中の研究機関がモデルサイズに重点を置き、精度がパラメーターの数と相関していることを観察しました。たとえば、GPT-3 (2020) と BLOOM (2022) には約 175 億のパラメーターがあり、Gopher (2021) には 230 億のパラメーターがあり、MT-NLG (2021) には 530 億のパラメーターがあります。 2022年には、ホフマンら。モデルパラメーターとデータセットサイズ間のコンピューティングの現在のバランスが最適ではないことを観察し、より多くのデータでトレーニングされたより小さなモデルに向けてコンピューティングバジェットのバランスをとることが、より優れたパフォーマンスのモデルにつながる可能性があることを示唆する経験的なスケーリング則を発表しました。彼らは、70B パラメータの Chinchilla (2022) モデルにガイダンスを実装し、より大きなモデルよりも優れたパフォーマンスを示しました。

SageMaker での LLM トレーニング

SageMaker は、LLM を含む機械学習 (ML) モデルの開発、トレーニング、チューニング、ホスティングのためのマネージド API のコレクションです。多くの顧客が、次のような LLM ワークロードを SageMaker に依存しています。スタビリティAI, AI21ラボ, LG AI. SageMakerトレーニングユーザー定義のハードウェア構成とコードを使用してコンピューティングクラスターをプロビジョニングします。コンピューティングジョブは実行ごとに秒数に比例して請求されます。つまり、サービスを使用していないときは、ユーザーは GPU 容量に対して請求されません。 TII は、SageMaker Training API によって提供される一時クラスターを使用して、48 個の NVIDIA A4 GPU に蓄積される最大 24 ml.p384d.100xlarge インスタンスの Falcon LLM をトレーニングしました。現在、TII は次の Falcon LLM をトレーニングしており、そのトレーニングを 3,136 個の A100 GPU (392 ml.p4d インスタンス) にスケールしました。

科学の質とトレーニング速度の水準を高めるために、プロジェクトのすべての層に前例のない量のカスタムイノベーションが投入されました。次のセクションでは、深層学習 (DL) トレーニングシステムのすべての層で実行される最適化 TII について説明します。

スケーラブルなデータキュレーション

最新世代の LLM は、トレーニングデータのサイズと品質によってその強みを発揮します。チームは、高品質の兆トークンデータセットの作成に特に注意を払いました。いくつかの SageMaker Training CPU ジョブは、ペタバイト単位の安価でスケーラブルな Web データを、厳選された安全なトレーニングデータセットに変換しました。自動化されたシステムがデータをフィルタリングし、重複を排除しました。たとえば、ML 分類器は冒涜的な言葉をフィルタリングするために使用されました。 ml.c5.18xlarge (72 vCPU、144 GB RAM) で実行されている CPU ジョブは、SageMaker Training を介したいくつかの API 呼び出しでインスタンス化され、データ変換タスクを実行しました。チームは、さまざまなユースケースにシングルインスタンス CPU ジョブとマルチインスタンス CPU ジョブの両方を使用しました。これらのジョブの一部は、それぞれが単一マシン上で数百の並列シェアナッシングアーキテクチャ (SNA) ジョブを使用しており、ワーカー間の同期が必要なタスクのために、チームはマルチインスタンスジョブを開始し、数十のインスタンスと数千の vCPU に累積しました。余談ですが、ダウンストリームのデータセット準備タスクでは、チームは 257 つの SageMaker Training ジョブで最大 5.18 ml.c18,504xlarge に達し、累積で 37 vCPU と XNUMX TB のメモリに達しました。

トレーニングのスループットを最大化する

トレーニングコストと市場投入までの時間の両方を最小限に抑えるために、チームは、3 秒あたりに処理され、TFLOPS/GPU で測定されるトレーニングトークンに比例してトレーニング速度を加速するための最適化のいくつかの方向性を追求しました。チームは、コンパイルされた GPU コードで記述されたカスタム最適化レイヤーを特徴とする、完全にカスタムの 166D 並列 LLM トレーニングフレームワークを使用しました。チームはさらに高速化するために、独自のカスタム行列乗算の実装まで書きました。チームはまた、並列通信を基礎となるネットワークトポロジに適応させるロジックも開発しました。初期のスケーリング実験中に、TII は 147 GPU の 256B モデルで 173 TFLOPs/GPU、13 GPU の 16B モデルで 2022 TFLOPs/GPU を達成することができました。私たちの知る限り、最速の既知のモデルの TFLOPs はクラウドで達成されました。試験の時期はXNUMX年末。

サーバーレスストレージ

LLM トレーニングはストレージを大量に消費します。数テラバイトのトレーニングデータをトレーニングクラスターに送信する必要があり、数テラバイトのモデルチェックポイントがクラスターから永続ストレージに定期的に戻されます。チェックポイントは、ジョブの再開時にできるだけ早くトレーニングクラスターに到達する必要もあります。従来のハイパフォーマンスコンピューティング (HPC) では、コンピューティングノードは分散ファイルシステムに接続され、POSIX のようなインターフェイスを介して高性能 I/O とスループットを提供します。 AWS では、顧客は定期的に光沢のためのAmazonFSx この目的のためのファイルシステム (詳細については、「 Amazon FSx for LusterおよびAmazon EFSファイルシステムを使用して、Amazon SageMakerでのトレーニングを高速化します)、また、BeeGFS の自己管理使用についても文書化しました。分散型コンピュータビジョンのケーススタディ。コストと運用の簡素化を重視したため、チームはファイルシステムサーバーの実装と運用を行わず、代わりにサーバーレスオブジェクトストレージ上にのみ構築するという課題に取り組みました。 Amazon シンプルストレージサービス (アマゾンS3)。カスタム S3 データセットクラスは、AWS SDK for Python (Boto3) を使用して構築され、満足のいくパフォーマンスを提供しながら、科学者が同じコードベース内で I/O エンジニアリングとモデルサイエンスを自律的に反復できるようにしました。

クライアントサイドのイノベーション

LLM プロジェクトが単一のトレーニングジョブで構成されることはほとんどありません。最初のテストと経験を実施するには、多数の作業が必要です。メインの実稼働トレーニングの過程で、構成やソフトウェアのバージョンの更新、パッチの展開、障害からの回復など、いくつかのジョブが連鎖する場合があります。 TII の科学者は、LLM トレーニングに適応したカスタムクライアントを構築するために大規模なエンジニアリングを実施しました。コードのバージョン管理、Docker イメージの構築、ジョブの起動など、複数の機能を XNUMX つのコマンドにまとめるために、ランチャークライアントが SageMaker Training SDK の上に構築されました。さらに、 AWSラムダサーバーレスコンピューティング機能は、必要に応じてジョブを監視、監視し、介入するように設計されています。

推論品質監査に Slack ボットを使用する

トレーニングの終わりに向けて、チームはモデルを内部ネットワークにデプロイしました。 SageMaker ホスティング GPU エンドポイントリアルタイムのインタラクションのために。チームは、現実的なフィードバックを取得し、モデルの定性的品質監査を実行するために、対話するための Slack ボットの作成にまで取り組みました。

トレーニングとパフォーマンスのモニタリング

LLM のトレーニングには、CPU、GPU、メモリリソースなどの大量の計算リソースが必要です。したがって、TII は、計算リソースの最適な利用とその費用対効果を確保するために、トレーニングジョブのパフォーマンスとアイドル時間を監視する必要がありました。

自動監視ソリューションを構築するために、TII は以下を使用しました。アマゾンクラウドウォッチトレーニングジョブの GPU、CPU、メモリの使用率を監視するアラーム。 CloudWatch は生データを収集し、SageMaker Training ジョブで使用されている基盤となるコンテナインスタンスから読み取り可能なほぼリアルタイムのメトリクスに処理します。その後、これらのメトリクスごとにしきい値を設定し、いずれかのメトリクスがしきい値を下回ると、アラームがトリガーされます。このアラームは、TII チームにリソース使用率の低下を通知し、リソース使用率の制約を修正するための修正措置を講じることができます。

TII は、リソース使用率の監視に加えて、トレーニングジョブリソースのアイドル時間を監視することもできます。トレーニングジョブリソースが長期間アイドル状態になった場合、トレーニングサイクルのどの段階でもボトルネックが発生している可能性があり、手動による調査が必要になります。場合によっては、リソースの使用率は比較的最適であったものの、トレーニングプロセス自体は進んでいませんでした。このような場合、TII は CloudWatch アラームを Lambda 関数と統合して、生成されたトレーニングログをクエリして読み取り、生成されたエラーまたはログ生成プロセスのアイドル状態 (クラスターが停止している) に基づいて自動アクションを実行します。アラームはトレーニングジョブを停止するアクションをトリガーします。これにより、リソースが使用されていないときに TII に不必要なコストが発生することがなくなります。

まとめ

SageMaker と独自のカスタムイノベーションを組み合わせて使用することで、TII は、技術的なブレークスルー、科学の質、トレーニング速度、操作の簡素化など、さまざまな側面で最先端のモデルをトレーニングすることができました。

「当社の Falcon LLM は、UAE のテクノロジーのリーダーシップを示しており、この地域における AI を活用したイノベーションへの道を切り開きます。 UAE 国家 AI 戦略 2031 に沿って、Falcon LLM のような世界的な技術進歩への UAE の参加は、知識ベースの経済を目指す私たちの旅において重要な要素です。 UAEは、新たな経済的、社会的、教育的機会の創出に役立つAIソリューションに投資し、開発することで、より広範な対話に積極的に関与することを選択しています。この取り組みの一環として、Falcon LLM のオープンソースリリースは、AI 分野におけるコラボレーションの促進、透明性の促進、イノベーションと研究の支援に対する UAE の取り組みを示しています。 Falcon LLM をオープンソースにすることで、その高度な技術機能に広くアクセスできるようにし、世界中の研究者や組織に力を与えることを目指しています。この重要な一歩は、AI の進歩を促進するという UAE の取り組みを実証し、世界的な AI コミュニティのリーダーとしての地位を確固たるものとします。次のステップには、新モデルを目前に控えたAIと先端技術の分野でのさらなる進歩に貢献すること、そしてUAEの組織や企業内で先端AI技術の活用を促進することが含まれる。」

– アルマズルーエイ博士

Falcon LLM について詳しくは、Web サイトをご覧ください。 FalconLLM.tii.ae & ハグフェイスのモデルカード!

著者について

エブテサム・アルマズロウエイ博士 AI クロスセンターユニットのエグゼクティブディレクター兼主任 AI 研究者代理であり、TII の LLM プロジェクトのプロジェクトリーダーです。彼女の仕事は、ヘルスケア、通信、教育、エネルギー、セキュリティに至るまで、複数の業界にわたって AI と高度な技術ソリューションを提供することに重点を置いています。アルマズルーエイ博士は、LLM の構築とこの分野における UAE の能力強化において極めて重要な役割を果たし、Falcon LLM 構築チームを率いています。さらに、これまで世界最大のアラビア語 LLM である Noor の開発を主導しました。

ウィル・バドル は、アラブ首長国連邦ドバイに拠点を置く AI/ML ソリューションアーキテクトのシニアマネージャーであり、グローバル Amazon Machine Learning チームの一員として働いています。ウィルは、革新的な方法でテクノロジーを使用してコミュニティにプラスの影響を与えることに情熱を持っています。余暇には、ダイビングに行ったり、サッカーをしたり、太平洋の島々を探検したりするのが好きです。

オリヴィエ・クルシャン フランスを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Olivierは、小規模なスタートアップから大企業まで、AWSのお客様が本番環境グレードの機械学習アプリケーションを開発およびデプロイするのを支援します。余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/technology-innovation-institute-trains-the-state-of-the-art-falcon-llm-40b-foundation-model-on-amazon-sagemaker/

生成的データインテリジェンス

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾンウェブサービス

新世代の LLM

SageMaker での LLM トレーニング

スケーラブルなデータキュレーション

トレーニングのスループットを最大化する

サーバーレスストレージ

クライアントサイドのイノベーション

推論品質監査に Slack ボットを使用する

トレーニングとパフォーマンスのモニタリング

まとめ

著者について

VCカフェ

VCカフェ

最新のインテリジェンス

Google Play ストアで複数の Android アプリを同時にダウンロードできるようになりました

🔴イーサリアムETFの遅延 |今週の暗号通貨 – 11 年 2024 月 XNUMX 日

病気のときも健康なときも: 強さと希望を見つけるための介護者のためのガイド – ワールドニュースレポート – 医療大麻プログラムの関係

Clean Group、シドニーCBDの新オフィス所在地と商業清掃サービスの強化を発表 – ワールドニュースレポート – 医療大麻プログラム関連

2024 年の利益の最大化: ValueZone.AI の包括的な考察

英国国防長官、イタリアのウクライナへのストームシャドウミサイル供給を明らかに

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。 アマゾン ウェブ サービス

新世代の LLM

SageMaker での LLM トレーニング

スケーラブルなデータキュレーション

トレーニングのスループットを最大化する

サーバーレスストレージ

クライアントサイドのイノベーション

推論品質監査に Slack ボットを使用する

トレーニングとパフォーマンスのモニタリング

まとめ

著者について

最新のインテリジェンス

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾンウェブサービス