ゼファーネットのロゴ

このロボットは、あなたがいつ笑顔になるかを予測し、合図にすぐに笑い返します

日付:

コメディクラブは私のお気に入りの週末の外出です。友達を集めて、お酒を飲みながら、冗談が通じたとき、目が合って生意気な笑いを共有する魔法のような瞬間が生まれます。

笑顔は見知らぬ人を大切な友達に変えることができます。拍車をかける 会う-かわいい ハリウッドの物語は、壊れた関係を修復し、曖昧で温かい喜びの感情と密接に結びついています。

少なくとも人々にとっては。ロボットの場合、本物の笑顔を作ろうとすると、不気味の谷に陥ることがよくあります。人間に十分似ていますが、少し不安を引き起こすのです。論理的には、彼らが何をしようとしているのかはわかります。しかし、直感的には何かがおかしいとわかります。

タイミングのせいかもしれません。ロボットは笑顔の表情を模倣するように訓練されています。しかし、彼らはいつニヤリと笑いを向けるべきかを知りません。人間がつながるとき、私たちは何の意識的な計画もなく、心から一緒に笑顔を浮かべます。ロボットは時間をかけて人の表情を分析し、笑顔を再現します。人間にとっては、たとえ数ミリ秒の遅れでも首の後ろが逆立ってしまいます。ホラー映画のように、何かが操作されているように感じられ、間違っているように感じられます。

先週、コロンビア大学のチームが アルゴリズムを披露した これはロボットに人間のオペレーターと笑顔を共有することを教えます。 AI は顔のわずかな変化を分析し、オペレーターの表情が起こる約 800 ミリ秒前に予測します。これは、ロボットがニヤリと笑い返すのに十分な時間です。

研究チームは、人間の仲間の表情を予測して一致させるように、Emo と呼ばれる柔らかい人型ロボットの顔を訓練しました。青く着色されたシリコン製の顔を持つエモは、60 年代の SF のエイリアンのように見えます。しかし、それは同じ「感情的」波長で人間のパートナーと一緒にすぐに笑いました。

人型ロボットは、人間とコミュニケーションをとる際にぎこちなく、ぎこちないことがよくありますが、 書いた グラスゴー大学のレイチェル・ジャック博士はこの研究には関与していませんでした。 ChatGPT やその他の大規模な言語アルゴリズムは、すでに AI の音声を人間のように聞こえるようにすることができますが、非言語コミュニケーションを再現するのは困難です。

ソーシャルスキル(少なくとも顔の表情)を物理的なロボットにプログラミングすることは、「ソーシャルロボットが人間の社会世界に参加する」ことを支援するための第一歩である、と彼女は書いた。

ボンネットの下に

ロボット軸 食べ物や飲み物を運んでくれるロボットサーバーに、 自律型ロボット ますます私たちの生活に入り込んでいます。

ロンドン、ニューヨーク、ミュンヘン、ソウルでは自治 ロボット 混乱した空港を駆け抜け、チェックイン、ゲートの検索、紛失した荷物の回収などの顧客サポートを提供します。シンガポールには、360度の視野を備えた高さXNUMXフィートのロボットが数台ある 空港を歩き回る 潜在的なセキュリティ問題にフラグを立てます。パンデミックの最中、 ロボット犬 社会的距離の確保を強制した。

しかし、ロボットにはそれ以上のことができるのです。破壊された家屋や橋の残骸の清掃などの危険な仕事の場合、彼らは救助活動の先駆者となり、初期対応者の安全性を高めることができます。世界人口の高齢化が進む中、看護師が高齢者をサポートするのに役立つ可能性がある。

電流プローブ ヒューマノイドロボット 漫画的に愛らしいです。しかし、ロボットが私たちの世界に参入するための主な要素は信頼です。科学者がますます人間らしい顔をしたロボットを開発するにつれて、私たちはロボットの表情が私たちの期待と一致することを望んでいます。ただ表情を真似するだけではありません。うんざりするほどの冗談に対して「そうだね、わかってるよ」と心からの笑顔を共有することで絆が生まれます。

非言語コミュニケーション(表情、手のしぐさ、体の姿勢)は、私たちが自分自身を表現するために使用するツールです。 ChatGPTなどで generative AI、機械はすでに「ビデオと口頭でコミュニケーション」することができます。 研究著者のホッド・リプソン博士は、 科学.

しかし、現実の世界では、視線、ウインク、笑顔が大きな違いを生む可能性があるため、それは「現在欠けているチャネル」であるとリプソン氏は言います。 「間違ったタイミングで笑うと逆効果になる可能性があります。 (数ミリ秒でも遅すぎると)もしかしたら、迎合しているような気がするんです。」

チーズを言う

ロボットに非言語的な動作をさせるために、チームは 1 つの側面、つまり笑顔の共有に焦点を当てました。これまでの研究では、笑顔を模倣するようにロボットが事前にプログラムされていた。しかし、それらは自発的ではないため、わずかではありますが顕著な遅延が発生し、笑顔が偽りのように見えます。

「非言語コミュニケーションには、定量化するのが難しいものがたくさんあります」とリプソン氏は言います。 「写真を撮るときに『チーズ』と言う必要があるのは、必要に応じて笑顔を作るのが実際にはかなり難しいからです。」

新しい研究はタイミングに焦点を当てた。

研究チームは、人の笑顔を予測し、それに合わせて人間のようなアニマトロニクスの顔を笑顔にするアルゴリズムを設計しました。 Emo と呼ばれるこのロボットの顔には、伸縮性のあるシリコンの「スキン」で包まれた 26 個のギア (人工筋肉を思い浮かべてください) が付いています。各ギアは磁石でロボット本体の「骨格」に取り付けられており、眉、目、口、首を動かします。エモの目には、周囲の環境を記録し、眼球の動きや瞬きの動きを制御するためのカメラが内蔵されています。

Emo はそれ自体で自分の表情を追跡できます。新しい研究の目標は、他人の感情を解釈できるようにすることでした。研究チームは、内向的なティーンエイジャーなら誰でも知っているであろうトリックを使用した。エモに鏡を見て、歯車を制御し、笑顔などの完璧な表情を作る方法を学ぶように指示した。ロボットは徐々に、自分の表情と運動コマンド、たとえば「頬を持ち上げる」などを一致させることを学びました。その後、チームは顔を過度に伸ばしてロボットのシリコン皮膚を傷つける可能性のあるプログラミングをすべて削除しました。

「結局のところ…微笑むことができるロボットの顔を[作る]ことは、機械的な観点からすると信じられないほど難しいことでした。ロボットハンドを作るよりも難しいです」とリプソン氏は語った。 「私たちは偽りの笑顔を見分けるのが得意です。したがって、私たちはそのことに非常に敏感です。」

不気味の谷に対抗するために、研究チームは人間が笑ったり、驚いたり、顔をしかめたり、泣いたり、その他の表情をするビデオを使用して顔の動きを予測できるようにエモを訓練した。感情は普遍的です。笑うと口角が三日月のように丸くなります。泣くと眉間にしわが寄る。

AIは各シーンの顔の動きをフレームごとに分析した。目、口、その他の「顔のランドマーク」の間の距離を測定することにより、特定の感情に対応する明らかな兆候が見つかりました。たとえば、口角が上がっている場合はほのかに笑みを浮かべていることを示唆し、下を向いている動きはほのかに微笑んでいる可能性があります。顔をしかめます。

トレーニングが完了すると、AI はこれらの顔のランドマークを認識するのに 1 秒もかかりませんでした。 Emo に電力を供給すると、ロボットの顔は人間とのやり取りに基づいて 1 秒以内に笑顔を予測し、参加者と一緒にニヤニヤすることができました。

誤解のないように言っておきますが、AI は「感じる」ことができません。むしろ、面白いスタンドアップに対して本物のような笑みを浮かべて笑うとき、人間がするのと同じように行動します。

人と対話するときに私たちが気づく手がかりは顔の表情だけではありません。微妙な首の振り、うなずき、眉を上げた動作、手のジェスチャーなどはすべて印象に残ります。文化に関係なく、「うーん」、「ああ」、「いいね」、またはそれらに相当する言葉は、日常のやり取りに組み込まれています。今のところ、エモは笑顔を覚えた赤ちゃんのようなものです。他のコンテキストはまだ理解していません。

「まだまだやるべきことはたくさんあるよ」 リプソン。私たちは AI の非言語コミュニケーションの表面をなぞっただけです。しかし、「ChatGPT に取り組むことが興味深いと思うなら、これらのことが実際に行われるまで待ってください。そうすればすべての賭けが外れます。」

画像のクレジット: Yuhang Hu、コロンビアエンジニアリング、YouTube経由

スポット画像

最新のインテリジェンス

スポット画像