ゼファーネットのロゴ

Google、Gemma を発表: ラップトップに優しいオープンソース AI

日付:

Google は、Gemini の作成に使用されたテクノロジーに基づいたオープンソースの大規模言語モデルをリリースしました。このモデルは強力でありながら軽量で、ラップトップやクラウド インフラストラクチャなどのリソースが限られた環境で使用するように最適化されています。

Gemma を使用すると、チャットボット、コンテンツ生成ツール、その他言語モデルで実行できるほぼすべてのツールを作成できます。これはSEO担当者が待ち望んでいたツールです。

これは 2 つのバージョンでリリースされており、7 つは XNUMX 億パラメータ (XNUMXB) で、もう XNUMX つは XNUMX 億パラメータ (XNUMXB) です。パラメーターの数は、モデルの複雑さと潜在的な機能を示します。パラメーターが多いモデルでは、言語をより深く理解し、より洗練された応答を生成できますが、トレーニングと実行により多くのリソースが必要になります。

Gemma をリリースする目的は、安全性をさらに最適化するためのツールキットを備えた、箱から出してすぐに安全で責任あるように訓練された最先端の人工知能へのアクセスを民主化することです。

ジェマ 作成者 DeepMind

このモデルは軽量かつ効率的になるように開発されているため、より多くのエンド ユーザーの手に渡るのに理想的です。

Google の公式発表では、次の重要な点が指摘されています。

  • 「私たちは、Gemma 2B と Gemma 7B の XNUMX つのサイズのモデルウェイトをリリースします。各サイズは、事前トレーニングおよび命令調整されたバリアントでリリースされます。
  • 新しい Responsible Generative AI Toolkit は、Gemma を使用してより安全な AI アプリケーションを作成するためのガイダンスと必須ツールを提供します。
  • 私たちは、ネイティブ Keras 3.0 を通じて、JAX、PyTorch、TensorFlow など、すべての主要なフレームワークにわたって推論と教師あり微調整 (SFT) のためのツールチェーンを提供しています。
  • すぐに使える Colab および Kaggle ノートブックに加え、Hugging Face、MaxText、NVIDIA NeMo、TensorRT-LLM などの人気ツールとの統合により、Gemma を簡単に始めることができます。
  • 事前トレーニングされ、命令が調整された Gemma モデルは、ノートパソコン、ワークステーション、または Google Cloud 上で実行でき、Vertex AI および Google Kubernetes Engine (GKE) に簡単にデプロイできます。
  • 複数の AI ハードウェア プラットフォームにわたる最適化により、NVIDIA GPU や Google Cloud TPU など、業界をリードするパフォーマンスが保証されます。
  • 利用規約では、規模に関係なく、すべての組織に対して責任ある商業利用と配布が許可されています。」

ジェマの分析

Apple の機械学習研究者である Awni Hannun 氏の分析によると、Gemma は低リソース環境での使用に適した形で高効率になるように最適化されています。

Hannun 氏は、Gemma の語彙数が 250,000 (250k) トークンであるのに対し、同等のモデルでは 32 であることに気づきました。その重要性は、Gemma がさまざまな単語を認識して処理できるため、複雑な言語を使用したタスクを処理できることです。彼の分析は、この広範な語彙により、さまざまなタイプのコンテンツにわたるモデルの汎用性が向上することを示唆しています。彼はまた、それが数学、コード、その他の手法にも役立つ可能性があると信じています。

また、「埋め込み重み」が膨大 (750 億 XNUMX 万) であることも指摘されています。埋め込み重みは、単語をその意味と関係の表現にマッピングするのに役立つパラメーターへの参照です。

同氏が指摘した重要な特徴は、単語の意味や関係性に関する詳細な情報をエンコードする埋め込み重みが、入力部分の処理だけでなくモデルの出力生成にも使用されることだ。この共有により、モデルがテキストを生成する際に言語の理解をより適切に活用できるようになり、モデルの効率が向上します。

エンド ユーザーにとって、これはモデルからのより正確で、関連性があり、状況に応じて適切な応答 (コンテンツ) を意味し、コンテンツ生成だけでなく、チャットボットや翻訳での使用も向上します。

He ツイート:

「語彙は他のオープンソース モデルと比較して膨大です。Mistral 250B では 32K 対 7K

おそらく、数学、コード、またはシンボルの重いテールを使用するその他のモダリティに非常に役立ちます。

また、埋め込みの重みは大きい (~750M パラメータ) ため、出力ヘッドと共有されます。」

同氏はフォローアップのツイートで、トレーニング段階でモデルがより効果的に学習して適応できるようになるため、トレーニングにおける最適化により、より正確で洗練されたモデル応答が得られる可能性があることにも言及しました。

He ツイート:

「RMS 標準重みには単位オフセットがあります。

「x * 重み」の代わりに、「x * (1 + 重み)」を実行します。

これはトレーニングの最適化だと思います。通常、重みは 1 に初期化されますが、おそらく 0 近くに初期化されます。他のすべてのパラメータと同様です。」

さらに、データとトレーニングにはさらに最適化が行われているが、特に目立っているのはこれら 2 つの要素であると述べました。

安全かつ責任ある設計

重要な特徴は、安全性を考慮してゼロから設計されているため、導入して使用するのに理想的であるということです。トレーニング データはフィルタリングされ、個人情報や機密情報が削除されました。 Google はまた、ヒューマン フィードバックからの強化学習 (RLHF) を使用して、責任ある行動のモデルをトレーニングしました。

さらに、手動の再チーミング、自動テストによってデバッグされ、望ましくない危険なアクティビティに対する機能がチェックされました。

Google は、エンドユーザーの安全性をさらに向上させるためのツールキットもリリースしました。

「新作もリリースします 責任ある生成 AI ツールキット Gemma と協力して、開発者や研究者が安全で責任ある AI アプリケーションの構築を優先できるよう支援します。ツールキットには次のものが含まれます。

  • 安全性分類: 最小限の例で堅牢な安全性分類器を構築するための新しい方法論を提供します。
  • デバッグ: モデル デバッグ ツールは、Gemma の動作を調査し、潜在的な問題に対処するのに役立ちます。
  • ガイダンス: 大規模な言語モデルの開発とデプロイにおける Google の経験に基づいたモデル ビルダーのベスト プラクティスにアクセスできます。」

Google の公式発表を読んでください。

ジェマ: 新しい最先端のオープンモデルの紹介

Shutterstock による注目の画像/Photo For Everything

スポット画像

最新のインテリジェンス

スポット画像