ゼファーネットのロゴ

Google AI が 30,000 時間のビデオ ゲームを視聴し、独自の成果を上げました

日付:

AIは大量の光と熱を生成し続けます。テキストと画像の最高のモデルは、今や購読数を伸ばし、消費者向け製品に組み込まれており、インチを競い合っています。 OpenAI、Google、Anthropic はすべて、多かれ少なかれ互角の関係にあります。

AI 研究者が生成モデルを新たな領域に押し広げようとしているのも不思議ではありません。 AI には膨大な量のデータが必要となるため、今後の展開を予測する 1 つの方法は、オンラインで広く入手可能であるものの、まだほとんど利用されていないデータを調べることです。

ビデオはたくさんありますが、次のステップとなるのは明らかです。実際、先月、OpenAI はプレビューされました Sora と呼ばれる新しいテキストからビデオへの AI それは見物人を唖然とさせた。

しかし、ビデオやゲームはどうでしょうか?

尋ねて受け取る

オンラインにはかなりの数のゲーマービデオがあることがわかりました。 Google DeepMind は、ゲーマーがシンプルなプラットフォーマー (初期の任天堂のゲームを思い浮かべてください) をプレイしている様子を映す 30,000 時間に及ぶ厳選されたビデオ映像をもとに、新しい AI である Genie を訓練したと述べています。 独自のサンプルを作成できるようになりました.

Genie は、単純な画像、写真、またはスケッチをインタラクティブなビデオ ゲームに変えます。

たとえば、キャラクターとその周囲の絵などのプロンプトが与えられると、AI はプレイヤーからの入力を受け取り、その世界内でキャラクターを移動させることができます。 DeepMind はブログ投稿で、Genie の作品が 2D の風景をナビゲートし、プラットフォーム間を歩き回ったりジャンプしたりする様子を示しました。尻尾を食べるヘビのように、これらの世界のいくつかは AI が生成した画像をソースとしています。

従来のビデオ ゲームとは対照的に、Genie はこれらのインタラクティブな世界をフレームごとに生成します。プロンプトと移動コマンドが与えられると、最も可能性の高い次のフレームを予測し、その場で作成します。さらに、前景が背景よりも速く動くプラットフォーマーによくある機能である視差の感覚を組み込むことも学びました。

注目すべきは、AI のトレーニングにはラベルが含まれていなかったことです。むしろ、Genie は、トレーニングの例を観察するだけで、入力コマンド (左、右、ジャンプなど) とゲーム内の動きを関連付けることを学びました。つまり、ビデオ内のキャラクターが左に動くとき、コマンドとその動きを結び付けるラベルがありませんでした。ジーニーはその部分を自分で理解しました。つまり、将来のバージョンは、オンラインにある限りの適切なビデオでトレーニングできる可能性があります。

この AI は優れた概念実証ですが、まだ開発の初期段階にあり、DeepMind はモデルをまだ公開する予定はありません。

ゲーム自体は、60 秒あたり 120 フレームの速度でストリーミングされるピクセル化された世界です。それに比べて、現代のビデオ ゲームは XNUMX 秒あたり XNUMX または XNUMX フレームに達することがあります。また、すべての生成アルゴリズムと同様に、Genie は奇妙な、または一貫性のない視覚的なアーティファクトを生成します。また、「非現実的な未来」の幻覚を見る傾向があります。 チームはAIについて説明した論文にこう書いた.

そうは言っても、Genie がここから改善すると信じる理由はいくつかあります。

世界をかき立てる

AI はラベルのないオンライン ビデオから学習でき、パラメータ数が 11 億個とまだ控えめなサイズであるため、スケールアップする機会は十分にあります。より多くの情報に基づいてトレーニングされた大規模なモデルは、劇的に改善される傾向があります。そして、 推論に重点を置いた成長産業訓練された AI が画像やテキストの生成などのタスクを実行するプロセスは、さらに高速化される可能性があります。

DeepMind は、Genie はプロの開発者などの人々のビデオゲーム作成を支援できる可能性があると述べています。しかし、Sora はビデオ以上のものであると信じている OpenAI と同様に、チームはより広い視野で考えています。このアプローチはビデオゲームをはるかに超えたものになる可能性があります。

一例です。 ロボットを制御できるAI。チームは、さまざまなタスクを完了するロボットアームのビデオで別のモデルをトレーニングしました。モデルはロボットを操作し、さまざまな物体を扱うことを学びました。

DeepMindはまた、Genieが生成したビデオゲーム環境をAIエージェントのトレーニングに使用できる可能性があるとも述べた。それは新しい戦略ではありません。 2021年の論文では、別の論文で DeepMind チームは、XLand と呼ばれるビデオ ゲームの概要を説明しました そこには、AI エージェントと、彼らに挑戦するタスクやゲームを生成する AI オーバーロードが住んでいました。 AI の次の大きなステップには、相互にトレーニングしたり、合成トレーニング データを生成したりできるアルゴリズムが必要になるという考えです。 けん引力.

これらすべては、AI の進歩を示すための OpenAI と Google 間の熾烈な競争における最新の一斉攻撃です。他の人が現場にいる間、 人間っぽい、GPT-4に似たマルチモーダルモデルを進めており、GoogleとOpenAIも世界をシミュレートするアルゴリズムに焦点を当てているようです。このようなアルゴリズムは、計画と対話において優れている可能性があります。どちらも、AI エージェントにとって重要なスキルとなり、両組織が開発に熱心に取り組んでいるようです。

「ジーニーは、現実世界の写真やスケッチなど、これまでに見たことのない画像を表示することで、人々が想像上の仮想世界と対話できるようにすることができ、基本的に世界の基礎モデルとして機能します」と研究者らは論文で述べている。 ジーニーのブログ投稿。 「私たちが焦点を当てているのは、 2D プラットフォーマー ゲームとロボット工学のビデオ しかし、私たちの方法は一般的であり、あらゆる種類のドメインで機能し、さらに大規模なインターネット データセットにも拡張可能です。」

同様に、OpenAI が先月 Sora をプレビューしたとき、研究者らは、それがより基礎的なもの、つまり世界シミュレーターを予告する可能性があると示唆しました。つまり、両チームは、オンライン ビデオの膨大なキャッシュを、AI が独自のビデオを生成するようにトレーニングする方法であると考えているようですが、同時に、オンラインまたはオフラインで世界をより効果的に理解し、運用するためでもあります。

これが利益をもたらすのか、それとも長期的に持続可能なのかは未解決の問題です。人間の脳は電球に相当する電力で動作します。生成 AI はデータセンター全体を使い果たします。しかし、AI を改善するだけでなく、AI の効率性を高めることを目指して、人材、技術、頭脳、資金といった現在働いている力を過小評価しないことが最善です。

テキスト、画像、音声、そしてその 3 つすべてにおいて目覚ましい進歩が見られました。ビデオはポットに投入される次の材料であり、さらに強力なビールを作る可能性があります。

画像のクレジット: Google DeepMind

スポット画像

最新のインテリジェンス

スポット画像