ゼファーネットのロゴ

幼児の目と耳を通して言語を学習したばかりの AI

日付:

サムが初めて額に軽量のカメラを装着したのは、生後6か月の時でした。

これから1年半、 カメラは彼の人生の断片を捉えた。彼は家族のペットの周りを這い、両親が料理をするのを眺め、おばあちゃんと一緒に玄関で泣きました。その間ずっと、カメラは彼が聞いたすべてを記録していました。

かわいい幼児のホームビデオのように聞こえますが、実は大胆なコンセプトです。「AI は子どものように言語を学習できるのか?」この結果は、子供たちがどのようにして幼い頃から言語や概念を急速に習得するのかも明らかにする可能性がある。

新しい研究 in 科学 は、研究者がサムの録音を使用して AI に言語を理解させるトレーニングを行った方法を説明しています。 1 人の子供の 1 年間にわたる人生経験のほんの一部だけで、AI はボール、蝶、バケツなどの基本的な概念を理解することができました。

Child's View for Contrastive Learning (CVCL) と呼ばれるこの AI は、視覚と音声を一致させることで、幼児の学習方法をほぼ模倣します。これは、次のような大規模な言語モデルが採用するアプローチとは大きく異なります。 ChatGPT または Bard の背後にある。エッセイ、詩、さらにはポッドキャストの脚本を作成するこれらのモデルの驚異的な能力は、世界を興奮させました。しかし、これらのスキルを開発するには、さまざまなニュース記事、脚本、書籍から何兆もの単語を消化する必要があります。

対照的に、子供たちははるかに少ないインプットで学習し、成長するにつれて学習した内容を急速に一般化します。科学者たちは長い間、AI が日常の経験だけでこれらの能力を獲得できるのではないかと考えてきました。

「私たちは、一人の子供からの発達上現実的な入力に基づいて訓練されたニューラルネットワークが、言葉と視覚的な対応物を結び付けることを学習できることを初めて示しました」と研究著者であるニューヨーク大学データサイエンスセンターのワイ・キーン・ヴォン博士は述べています。 プレスリリースで述べています 研究について。

おままごと

子どもたちは日常の経験から言葉とその意味を簡単に吸収します。

生後わずか 300 か月で、彼らは見ているものと言葉を結びつけ始めます。たとえば、丸い弾むものは「ボール」です。 XNUMX歳までに、彼らは約XNUMXの単語とその概念を知っています。

科学者たちはこれがどのようにして起こるのかについて長い間議論してきました。一説によると、子供たちは見ているものと聞いているものを一致させることを学ぶそうです。別の研究者は、言語学習には社会的交流や推論能力など、より幅広い世界経験が必要であると示唆しています。

幼児を対象とした従来の認知テストを使ってこれらのアイデアを区別するのは困難です。しかし、子供の目と耳を通して AI を訓練することで答えが得られるかもしれません。

M3GAN?

新しい研究では、と呼ばれる豊富なビデオリソースが利用されました。 セイカムこれには、額に取り付けられた GoPro のようなカメラを使用して、生後 6 か月から 32 か月の XNUMX 人の子供から収集されたデータが含まれています。

カメラは週に 2 回、授乳したり、はいはいしたり、遊んだりする様子を約 1 時間の映像と音声で記録しました。すべての可聴対話は「発話」、つまり話者または会話が変わる前に話された単語または文に転写されました。その結果、乳児や幼児の視点から見た豊富なマルチメディア データが得られます。

新しいシステムのために、チームはそれらを調整する「ジャッジ」を備えた 2 つのニューラル ネットワークを設計しました。あるシーンでは、一人称視点のビジュアルを、シーンの誰が何なのかを翻訳しました。これはお母さんが料理をしているのですか?もう一人は音声録音から単語と意味を解読しました。

その後、2 つのシステムが時間内に関連付けられるため、AI は正しいビジュアルと単語を関連付けることを学習しました。たとえば、AI は、赤ちゃんの画像と「ほら、赤ちゃんがいるよ」という言葉を一致させたり、ヨガ ボールの画像と「わぁ、大きなボールだ」という言葉を一致させたりすることを学習しました。トレーニングを重ねることで、赤ちゃんはヨガボールという概念を赤ちゃんから切り離すことができるようになりました。

「これにより、どの単語をどのオブジェクトに関連付けるべきかについてモデルに手がかりが得られます」とヴォング氏は述べています。

次にチームは、サムの人生の約 600,000 年半のビデオを使って AI をトレーニングしました。これは、37,500 の音声文字起こしと合わせて、XNUMX を超えるビデオ フレームに相当します。この数字は大きいように思えますが、大規模な言語モデルのトレーニングに使用されるデータ量と比較すると、サムの毎日の起床時間のわずか XNUMX% にすぎません。

台頭するベイビー AI

システムをテストするために、チームは子供の言語能力を測定するために使用される一般的な認知テストを採用しました。彼らは AI に猫、ベビーベッド、ボール、芝生という 4 つの新しい画像を見せ、どれがボールであるかを尋ねました。

全体として、AI は約 62% の確率で正しい画像を選択しました。このパフォーマンスは、Web 上の 400 億の画像とテキストのペアでトレーニングされた最先端のアルゴリズムとほぼ一致しました。これは、研究で AI のトレーニングに使用されたデータよりも桁違いに多くのデータでした。彼らは、ビデオ画像とオーディオをリンクすることが重要であることを発見しました。チームがビデオ フレームとそれに関連する発話をシャッフルしたところ、モデルは完全に破綻しました。

AI は、既成概念にとらわれずに「思考」し、新しい状況に一般化することもできます。

別のテストでは、サムの親の「アヒルと蝶だよ」という絵本の視点で訓練されました。その後、「蝶をやってもいいですか?」と尋ねられたとき、彼はおもちゃの蝶を掲げました。 AI がこれまで見たことのない色とりどりの蝶の画像に挑戦すると、80 つの例のうち XNUMX つが「蝶」であると XNUMX% 以上の精度で検出されました。

すべての単語の概念が同じスコアを獲得したわけではありません。例えば「スプーン」は苦労しました。しかし、それは指摘する価値があります。 reCAPTCHAは、トレーニング画像は人間でも解読するのが困難でした。

産みの苦しみ

  AI はマルチモーダル機械学習の最近の進歩に基づいて構築されています、テキスト、画像、オーディオ、ビデオを組み合わせて機械の脳を訓練します。

たった 1 人の子供の経験からの入力をもとに、アルゴリズムは単語がどのように相互に関係しているかを捉え、単語を画像や概念に結び付けることができました。これは、幼児にとって、単語を聞いて、見ているものとそれを一致させることが、語彙力の構築に役立つことを示唆しています。

だからといって、社会的な合図や推論などの他の脳のプロセスが機能しないというわけではありません。これらのコンポーネントをアルゴリズムに追加すると、アルゴリズムが改善される可能性があると著者らは書いています。

研究チームは実験を継続する予定だ。今のところ、「赤ちゃん」AI は静止画フレームからのみ学習し、語彙の大部分が名詞で構成されています。ビデオには動きが含まれるため、ビデオセグメントをトレーニングに統合すると、AI が動詞を学習するのに役立つ可能性があります。

音声データにイントネーションを追加することも役立つ可能性があります。子どもたちは、母親の「うーん」という言葉が、その口調によって大きく異なる意味を持つことを早い段階で学びます。

しかし全体として、AI と人生の経験を組み合わせるのは、機械と人間の脳の両方を研究するための強力な新しい方法です。これは、子どものように学習する新しい AI モデルの開発に役立ち、脳が言語や概念を学習する方法についての理解を再構築する可能性があります。

画像クレジット: ワイ・キーン・ヴォング

スポット画像

最新のインテリジェンス

スポット画像