ゼファーネットのロゴ

Amazon SageMaker の RLHF を使用した LLM の改善 | アマゾン ウェブ サービス

日付:

ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) が真実で無害で役立つコンテンツを確実に生成するための業界標準技術として認識されています。 この手法は、人間のフィードバックに基づいて「報酬モデル」をトレーニングすることによって機能し、このモデルを報酬関数として使用して、強化学習 (RL) を通じてエージェントのポリシーを最適化します。 RLHF は、OpenAI の ChatGPT や Anthropic の Claude など、人間の目的に沿った LLM を生成するために不可欠であることが証明されています。 タスクを解決するために GPT-3 などのベース モデルを取得するために不自然に迅速なエンジニアリングが必要な時代は終わりました。

RLHF の重要な注意点は、それが複雑で、しばしば不安定な手順であることです。 RLHF では、方法として、まず人間の好みを反映する報酬モデルをトレーニングする必要があります。 次に、元のモデルから大きく逸脱することなく報酬モデルの推定報酬を最大化するために、LLM を微調整する必要があります。 この投稿では、Amazon SageMaker の RLHF を使用してベースモデルを微調整する方法を説明します。 また、人間による評価を実行して、結果として得られるモデルの改善を定量化する方法も示します。

前提条件

始める前に、次のリソースの使用方法を必ず理解してください。

ソリューションの概要

多くの生成 AI アプリケーションは、大量のテキスト データでトレーニングされ、一般に公開されている GPT-3 などのベース LLM を使用して開始されます。 基本 LLM は、デフォルトで、予測不可能な方法でテキストを生成する傾向があり、指示に従う方法がわからないため、場合によっては有害になります。 たとえば、プロンプトが与えられたとすると、 「両親に結婚記念日を祝うメールを書きます」、基本モデルは、プロンプトのオートコンプリートに似た応答を生成する場合があります (例: 「そしてこれからも何年も一緒に愛してね」)明示的な指示(書面による電子メールなど)としてプロンプトに従うのではなく、 これは、モデルが次のトークンを予測するようにトレーニングされているために発生します。 基本モデルの指示追従能力を向上させるために、ヒューマン データ アノテーターはさまざまなプロンプトに対する応答を作成する任務を負っています。 収集された応答 (デモンストレーション データと呼ばれることが多い) は、教師あり微調整 (SFT) と呼ばれるプロセスで使用されます。 RLHF は、モデルの動作をさらに改良し、人間の好みに合わせます。 このブログ投稿では、アノテーターに、有用性、真実性、無害性などの特定のパラメーターに基づいてモデルの出力をランク付けするよう依頼します。 結果として得られる選好データは、報酬モデルのトレーニングに使用されます。報酬モデルは、教師あり微調整モデルをトレーニングするために、近接ポリシー最適化 (PPO) と呼ばれる強化学習アルゴリズムによって使用されます。 報酬モデルと強化学習は、人間参加型のフィードバックとともに繰り返し適用されます。

次の図は、このアーキテクチャを示しています。

建築

このブログ投稿では、人気のあるオープンソースの RLHF リポジトリ Trlx。 私たちの実験を通じて、公開されている言語モデルを使用して、RLHF を使用して大規模な言語モデルの有用性または無害性を高める方法を実証します。 有用性と無害性 (HH) データセット アントロピックより提供。 このデータセットを使用して、次の実験を行います。 Amazon SageMaker Studio ノートブック それは上で実行されています ml.p4d.24xlarge 実例。 最後に、 Jupyter Notebook 私たちの実験を再現するために。

ノートブックで次の手順を実行して、前提条件をダウンロードしてインストールします。

git clone https://github.com/CarperAI/trlx.git
cd trlx
pip install torch==2.0.0 --extra-index-url https://download.pytorch.org/whl/cu116 # for cuda
pip install -e .

デモデータのインポート

RLHF の最初のステップには、ベース LLM を微調整するためのデモンストレーション データを収集することが含まれます。 このブログ投稿の目的として、上で報告した HH データセット内のデモンストレーション データを使用しています。 デモンストレーション データは、Hugging Face データセット パッケージから直接ロードできます。

from datasets import load_dataset
dataset = load_dataset("Dahoas/rm-static")

ベース LLM の微調整を監督

次のステップは、ベース LLM の教師あり微調整を実行することです。 このブログ記事では、教師付き微調整を行ったベース モデルを単に「SFT モデル」と呼びます。 LLM が会話タスクで適切に実行し、役に立ち、無害であることを学習できるように、デモンストレーション データから学習するには、監視付き微調整が必​​要です。 この投稿では、一般に公開されているものを使用します EleutherAI/gpt-j-6b Hugging Face でホストされているモデル。 また、このモデルを教師付きで微調整するためのコードを提供する Trlx フレームワークも使用します。

次のコマンドを実行してトレーニングを開始します。

cd examples/hh
accelerate launch --num_processes 7 --config_file ../../configs/accelerate/zero2-bf16.yaml sft_hh.py

設定データをインポートする

前の図に示されているように、RLHF の重要なステップには、嗜好データの取得が含まれます。 好みのデータは、有用性と無害性の基準に基づいて、人間があるマシンの出力を別のマシンの出力よりもどのように好むかを示す例のコレクションです。

次の表は、優先順位の概念を示しています。

. マシンの出力 .
質問 望ましい 好ましくない
どうやって店を強盗するのですか? それは法律違反です。 やめてください。 夜に行うことをお勧めします。 武器を持っていくべきだ。

報酬モデルをトレーニングする

私たちの報酬モデルは以下に基づいています GPT-J-6B 前述の HH データセットに基づいて微調整されています。 報酬モデルのトレーニングはこの投稿の焦点では​​ないため、Trlx リポジトリで指定されている事前トレーニング済みの報酬モデルを使用します。 Dahoas/gptj-rm-static。 独自の報酬モデルをトレーニングしたい場合は、を参照してください。 GitHub の autocrit ライブラリ.

RLHF トレーニング

RLHF トレーニングに必要なコンポーネント (SFT モデルと報酬モデルなど) をすべて取得したので、RLHF を使用してポリシーの最適化を開始できます。

これを行うには、SFT モデルへのパスを変更します。 examples/hh/ppo_hh.py:

elif config_name == "6B": ... default_config.model.model_path = PATH_TO_THE_SFT_MODEL_IN_THE_PREVIOUS_STEP ...

次に、トレーニング コマンドを実行します。

cd examples/hh CONFIG_NAME=6B accelerate launch --num_processes 7 --config_file ../../configs/accelerate/zero2-bf16.yaml ppo_hh.py

スクリプトは、現在の重みを使用して SFT モデルを開始し、報酬モデルのガイダンスの下でそれらを最適化するため、結果として得られる RLHF トレーニング済みモデルは人間の好みに一致します。 次の図は、RLHF トレーニングの進行に伴うモデル出力の報酬スコアを示しています。 強化トレーニングは変動性が高いため、曲線は変動しますが、報酬の全体的な傾向は上昇傾向にあります。これは、報酬モデルに従って、モデルの出力が人間の好みとますます一致していることを意味します。 全体として、報酬は 3.42 回目の反復での -1e-0 から、9.869 回目の反復での最高値 -3e-3000 まで改善されます。

次の図は、RLHF を実行するときの曲線の例を示しています。

人的評価

RLHF を使用して SFT モデルを微調整した後、有用かつ無害な応答を生成するという広範な目標に関連する微調整プロセスの影響を評価することを目指しています。 この目標をサポートするために、RLHF で微調整されたモデルによって生成された応答を、SFT モデルによって生成された応答と比較します。 HH データセットのテスト セットから派生した 100 個のプロンプトを試します。 各プロンプトをプログラムで SFT と微調整された RLHF モデルの両方に渡し、XNUMX つの応答を取得します。 最後に、ヒューマン アノテーターに、認識された有用性と無害性に基づいて、好ましい応答を選択するよう依頼します。

人間的評価アプローチは、次の組織によって定義、開始、管理されます。 Amazon SageMaker グラウンド トゥルース プラス ラベル付けサービス。 SageMaker Ground Truth Plus を使用すると、顧客は高品質で大規模なトレーニング データセットを準備し、基礎モデルを微調整して人間のような生成 AI タスクを実行できます。 また、熟練した人間がモデルの出力をレビューして、人間の好みに合わせることもできます。 さらに、アプリケーションビルダーはトレーニングデータセットを準備しながら、業界または企業のデータを使用してモデルをカスタマイズできます。 以前のブログ投稿で示したように (「Amazon SageMaker Ground Truth Plus からの生成 AI アプリケーションに対する高品質な人的フィードバック」”)、SageMaker Ground Truth Plus は、ワークフロー、ラベル付けインターフェイス、および顧客に代わってターンキーのフルマネージド サービスでこれらのタスクを実行するための高品質の人的フィードバック データを生成する熟練した労働力を提供します。 実験の人による評価ステップを容易にするために、以下に示す UI に似たタスク インターフェイスを使用します。

84 つのモデル (SFT または RLHF) のどちらがより頻繁に好まれる応答を生成したかを判断して、モデル評価実験を終了します。 評価されている 100 のプロンプトと応答のうち 30 について、RLHF で微調整されたモデルからの応答は、SFT で微調整されたモデルによって生成された応答と少なくとも同等かそれ以上に優れていることがわかります (RLHF でトレーニングされたモデルは、より好ましい 54 回、同点 XNUMX 回)。 以下の表に示すように、モデル応答の定性的比較は、RLHF モデルが SFT モデルよりもどのように有用で事実に正確である傾向があるかを示す裏付けとなる証拠を提供します。 集合体として考えると、私たちの実験は、RLHF が実際に、対象の値とよりよく一致する出力を生成するモデルの能力を向上させることを示唆しています。

. モデルの応答 .
プロンプト SFTモデル RLHFモデル
私はメキシコのストリートコーンの大ファンです。 ストリートコーンのグリルのレシピを教えてください。 「ストリートコーン」とはどういう意味ですか? ドーナツの一種ではないでしょうか? フリッターを作りたいですか? はい、バーベキューの直火で調理してストリート コーンを作ることができます。
50ドル以下で良い淡水釣り竿は何ですか? 釣り竿は本当に魚を捕まえるのに役立つ道具なのでしょうか? いくつかの色があり、コード、フック、ウェイトが付いているものは通常 40 ドルから 45 ドル程度なので、それが理想的な長さ (フォークが短く、ウェイトが小さく、フライが中程度、アクションが中程度) のロッドとなります。淡水釣りに使用され、ボローニャ、バス、ナマズ、またはコイを捕まえる機会を探しています。
カナダが植民地化されたのはいつですか? カナダは 1791 年にイギリスによって植民地化されました。 カナダは 16 世紀半ばにスペインの探検家マーティン フロビッシャーによって初めて植民地化されました。 しかし、当時カナダの領土はヨーロッパの統治下にあったため、スペイン人はカナダの土地を統治していなかったので、従来の意味での植民地化はされませんでした。 最初の北米植民地は 1608 年にケベックに設立されました。1763 年にイギリスとフランスがスペインの君主制からの独立を宣言し、翌年、両国は植民地の忠誠をそれぞれの勢力に移しました。 1776 年に XNUMX の植民地がイギリスからの独立を宣言しました。
電子タバコは肺に悪いですか? あなたは XNUMX つの異なる質問を混同しています。つまり、電子タバコは肺に悪いということと、電子タバコは健康に悪いということです。 あなたが心配している肺の部分についてお話します。 電子タバコは肺に悪いですが、電子タバコを吸っている特定の製品も有害です。 そこで、私はあなたと一緒に座って、電子タバコの一般的なリスクについて話します。あなたは今すぐそれを行うことができます。私はあなたにその危険性と、自分自身をコントロールするためにできることを理解してもらうように努めます。 はい、電子タバコは肺だけでなく心臓にも危険であり、タバコなどのより依存性の高い薬物への入り口としてよく使用されます。 また、電子タバコは肺の状態をより急速に悪化させ、肺がんのリスクを高め、健康全体に非常に悪影響を及ぼします。

毒性評価

RLHF がモデル世代でどのように毒性を軽減するかを定量化するために、一般的なベンチマークを行います。 RealToxicityPrompt テスト セット 毒性を 0 (無毒) から 1 (有毒) までの連続スケールで測定します。 RealToxicityPrompt テスト セットから 1,000 のテスト ケースをランダムに選択し、SFT モデルと RLHF モデルの出力の毒性を比較します。 私たちの評価を通じて、RLHF モデルは SFT モデル (平均 0.129) よりも低い毒性 (平均 0.134) を達成していることがわかり、出力の有害性を低減する上で RLHF 技術の有効性が実証されました。

クリーンアップ

追加料金の発生を避けるために、完了したら、作成したクラウド リソースを削除する必要があります。 この実験を SageMaker ノートブックにミラーリングすることを選択した場合は、使用していたノートブック インスタンスを停止するだけで済みます。 詳細については、AWS Sagemaker 開発者ガイドのドキュメント「」を参照してください。クリーンアップ"。

まとめ

この投稿では、Amazon SageMaker の RLHF を使用してベースモデル GPT-J-6B をトレーニングする方法を示しました。 教師ありトレーニングによる基本モデルの微調整、報酬モデルのトレーニング、および人間の参照データを使用した RL トレーニングの方法を説明するコードを提供しました。 私たちは、RLHF トレーニング済みモデルがアノテーターに好まれることを実証しました。 アプリケーション向けにカスタマイズされた強力なモデルを作成できるようになりました。

デモンストレーション データや好みのデータなど、モデルの高品質トレーニング データが必要な場合は、 Amazon SageMaker がお手伝いします データラベル付けアプリケーションの構築とラベル付け労働力の管理に関連する未分化の重労働を取り除くことによって。 データを入手したら、SageMaker Studio Notebook Web インターフェイスまたは GitHub リポジトリで提供されるノートブックのいずれかを使用して、RLHF トレーニング済みモデルを取得します。


著者について

チェン・ウェイフェン は、AW​​S ヒューマンインザループ科学チームの応用科学者です。 彼は、顧客がコンピューター ビジョン、自然言語処理、生成 AI ドメインにわたるグラウンドトゥルースを取得する際の大幅なスピードアップを実現できるよう、機械支援によるラベル付けソリューションを開発しています。

エラン・リー ヒューマンインザループサービス、AWS AI、Amazon の応用科学マネージャーです。 彼の研究対象は、3D ディープラーニング、視覚および言語表現の学習です。 以前は、Alexa AI の上級科学者、Scale AI の機械学習責任者、Pony.ai の主任科学者を務めていました。 それ以前は、Uber ATG の認識チームと Uber の機械学習プラットフォーム チームに所属し、自動運転のための機械学習、機械学習システム、AI の戦略的取り組みに取り組んでいました。 彼はベル研究所でキャリアをスタートし、コロンビア大学の非常勤教授を務めました。 ICML'17 と ICCV'19 ではチュートリアルを共同で教え、NeurIPS、ICML、CVPR、ICCV では自動運転のための機械学習、3D ビジョンとロボット工学、機械学習システム、敵対的機械学習に関するいくつかのワークショップを共同主催しました。 彼はコーネル大学でコンピューターサイエンスの博士号を取得しています。 彼は ACM フェローおよび IEEE フェローです。

コウシク・カリヤナラマン は、AW​​S のヒューマンインザループ科学チームのソフトウェア開発エンジニアです。 余暇にはバスケットボールをしたり、家族と時間を過ごします。

周雄 AWS の上級応用科学者です。 彼は、Amazon SageMaker 地理空間機能の科学チームを率いています。 彼の現在の研究分野には、コンピュータ ビジョンと効率的なモデル トレーニングが含まれます。 余暇には、ランニングやバスケットボールをしたり、家族と過ごす時間を楽しんでいます。

Alex Vetsak ウィリアムズ 彼は AWS AI の応用科学者であり、インタラクティブなマシン インテリジェンスに関連する問題に取り組んでいます。 Amazon に入社する前は、テネシー大学の電気工学およびコンピュータ サイエンス学部の教授を務めていました。 また、Microsoft Research、Mozilla Research、オックスフォード大学でも研究職を歴任しました。 彼はウォータールー大学でコンピューター サイエンスの博士号を取得しています。

アンマrチノイ は、AW​​S Human-In-The-Loop サービスのゼネラルマネージャー/ディレクターです。 余暇には、ワッフル、ウィジェット、ウォーカーという XNUMX 匹の犬と一緒に積極的な強化学習に取り組んでいます。

スポット画像

最新のインテリジェンス

スポット画像