ゼファーネットのロゴ

Apple は ReALM が画面コンテキストを理解していると自慢

日付:

Apple の研究者らは、ReALM AI として知られる新製品を発表しました。これは、ユーザーの画面に表示されている内容を理解し、それに応じてリクエストに応答できると主張しています。

研究者らによると、このモデルはパラメーターが少ないにもかかわらず、さまざまなタスクで GPT-4 を上回っています。これは、iOS 18 の正式リリースに先立って行われます。 WWDC 2024 6月には、大きな後押しが予想される 新しいSiri 2.0。 ただし、Apple が WWDC 2024 に間に合うように新しい ReALM を Siri に統合するかどうかはまだ明らかではありません。

また、お読みください。 ニッキー・ミナージュ、ケイト・ペリー、他200人のアーティストが音楽の「価値を下げる」としてAI開発者を非難

画面上で理解する

Apple は AI 関連の発表を行い、AI 分野で追いつきを続けています。現在、iPhone メーカーの研究者は、「画面に何が表示されているかを理解する」ことができる新しい AI モデル ReALM をリリースするという画期的な進歩を遂げました。

AI スタートアップの買収からわずか 1 か月後にこれが実現 ダーウィンAI。 研究者らによると、このモデルはユーザーの画面からの情報をテキストに変換するという。これにより、「大掛かりな画像認識を必要とせずに」デバイス上で機能することが可能になります。

に記載されているモデル 研究論文 パラメーターが少ないにもかかわらず、GPT-4 よりも大幅にパフォーマンスが優れており、画面上の内容だけでなくバックグラウンドで実行されているタスクも考慮されています。

たとえば、ユーザーが Web ページを閲覧していて電話したい企業を見つけた場合、Siri に「この企業に電話して」と頼むだけで済みます。 ReALM を使用すると、このモデルにより、Siri が連絡先の詳細を「確認」し、「直接通話を開始」できるようになります。

これは、モデルが画面コンテキストをどのように理解してユーザー エクスペリエンスを向上させるかを示しています。

MSPowerUser によると レポート、新しいモデルを将来の Siri アップデートに統合することは、Apple がよりシームレスで「ハンズフリーのユーザー エクスペリエンス」を生み出すのに役立ちます。これにより、Gemini のような大規模な言語モデルを導入することなく、Siri の会話能力がさらに向上すると期待されています。

レポートはさらに次のように述べています iPhoneメーカー は、必要な結果を得るために複数のプロンプトを表示する必要性を軽減できる MM1 と AI 画像マニピュレーターにも取り組んでいます。

競合他社を上回るパフォーマンス

研究論文によると、ReALM はさまざまなデータセットで同等のモデルや以前のモデルを上回りました。これらには、合成データセット、会話データセット、および目に見えない会話データセットが含まれていました。

研究論文では、画面上の情報で OpenAI の GPT-4 を使用して ReALM がどのように完全に実行されたかについても特に強調しています。演習中、ReALM はテキスト コーディングのみに依存していましたが、GPT-4 にはスクリーンショットへのアクセスが許可されていました。

研究者がそのパフォーマンスを評価したところ、GPT-4 と ReALM はどちらも同じ結果を示しました。

MSPowerUser によると、「ただし、ReALM はユーザーのリクエストに合わせて微調整されているため、ドメイン固有のクエリに関しては GPT-4 よりも優れたパフォーマンスを発揮しました。」

研究者らは次のように説明しています。「特に画面上のデータセットでの利点を強調したいのですが、テキスト エンコーディング アプローチを使用したモデルは、GPT-4 にスクリーンショットが提供されているにもかかわらず、GPT-XNUMX とほぼ同等のパフォーマンスを発揮できることがわかりました。」

研究者らによれば、これにより ReALM は「ユーザーの意図のニュアンスを把握し、それに応じて対応する」ことが可能になるという。

モデルの反対側

この調査では、ReALM が参照解決に LLM をどのように利用しているかが強調されています。 MSPowerUser によると、このモデルは、「オンデバイス アプリケーションの効率性を維持しながら、画面上のエンティティを自然言語テキストに変換する」ことによって、ユーザーの画面とその要求を理解することができます。

ただし、モデルは画面上のエンティティの位置をエンコードしますが、「空間関係の複雑な理解を必要とする複雑なユーザー クエリ」からすべての詳細を取得できるわけではありません。

による トムのガイド, Appleが過去数カ月間にAI分野に進出したのはこれが初めてではない。同社はデバイスの効率を高めるためのツールの組み合わせに取り組んでおり、AI をビジネスの中心にするという取り組みを示しています。

ReALM は、特に既存のモデルを強化し、より高速かつ効率的にすることに重点を置いた iPhone メーカーの最新製品です。

スポット画像

最新のインテリジェンス

スポット画像