Zephyrnet Logosu

Apple, ReALM'in Ekran Bağlamını Anladığıyla Övünüyor

Tarih:

Apple araştırmacıları, kullanıcının ekranında ne olduğunu anlayabildiğini ve dolayısıyla isteklere buna göre yanıt verebildiğini iddia ettikleri, ReALM AI olarak bilinen yeni ürünlerini ortaya çıkardılar.

Araştırmacılara göre model, daha az parametreye sahip olmasına rağmen çeşitli görevlerde GPT-4'ü geride bırakıyor. Bu, iOS 18'in resmi lansmanından önce geliyor. WWDC 2024 Haziran ayında, arkasında beklenen büyük bir itiş ile birlikte yeni Siri 2.0. Ancak Apple'ın yeni ReALM'i WWDC 2024 zamanında Siri'ye entegre edip etmeyeceği henüz belli değil.

Ayrıca okuyun: Nicki Minaj, Kate Perry ve 200 Diğer Sanatçı, Müziğin 'Değersizleştirilmesi' Nedeniyle Yapay Zeka Geliştiricilerini Eleştirdi

Ekranı anlama

Apple, yapay zeka arenasını yakalamaya çalışıyor ve yapay zeka ile ilgili duyurular yapıyor. Şimdi, iPhone üreticisindeki araştırmacılar, "ekranınızda ne olduğunu anlayabilen" yeni bir yapay zeka modeli olan ReALM'i piyasaya sürerek çığır açıcı bir başarıya imza attılar.

Bu, bir yapay zeka girişiminin satın alınmasından ancak bir ay sonra gerçekleşiyor DarwinAI. Araştırmacılara göre model, kullanıcının ekranındaki bilgileri metne dönüştürüyor. Bu, "hacimli görüntü tanıma gerektirmeden" cihazlarda çalışmasına olanak tanır.

Modelde belirtildiği gibi araştırma makalesi Daha az parametreye rağmen GPT-4'ten önemli ölçüde daha iyi performans gösteren bu sistem, ekranda görünenlerin yanı sıra arka planda çalışan görevleri de dikkate alıyor.

Örneğin, bir kullanıcı bir web sayfasına göz attığında ve aramak istediği bir işletmeyi bulduğunda Siri'den "bu işletmeyi aramasını" isteyebilir. Artık ReALM kullanıldığında model, Siri'nin iletişim ayrıntılarını "görmesine" ve "doğrudan aramayı başlatmasına" olanak tanıyacak.

Bu, modelin ekran bağlamını nasıl anladığını ve kullanıcı deneyiminin geliştirilmesine nasıl yardımcı olduğunu gösterir.

Bir MSPowerUser'a göre raporYeni modeli gelecekteki Siri güncellemelerine entegre etmek, Apple'ın daha kusursuz ve "eller serbest" bir kullanıcı deneyimi yaratmasına yardımcı oluyor. Bunun aynı zamanda Siri'ye daha fazla konuşma yeteneği vermesi bekleniyor, ancak Gemini gibi büyük bir dil modeli kullanmadan.

Rapor ayrıca şunu belirtiyor: iPhone üreticisi aynı zamanda gerekli sonuçları elde etmek için birden fazla istem ihtiyacını azaltabilecek MM1 ve bir AI görüntü manipülatörü üzerinde de çalışıyor.

Üstün performans gösteren rekabet

Araştırma makalesine göre ReALM, çeşitli veri kümelerinde emsallerini ve önceki modelleri gölgede bıraktı. Bunlar sentetik, konuşmaya dayalı ve görünmeyen konuşmaya dayalı veri kümelerini içeriyordu.

Araştırma makalesi ayrıca ReALM'in ekrandaki bilgilerde OpenAI'nin GPT-4'üyle nasıl tam performans gösterdiğini özellikle vurguluyor. Tatbikat sırasında ReALM yalnızca metin kodlamasına güvenirken, GPT-4'e ekran görüntülerine erişim izni verildi.

Araştırmacılar performanslarını değerlendirdiğinde hem GPT-4 hem de ReALM aynı sonuçları gösterdi.

MSPowerUser'a göre "Ancak ReALM, kullanıcı isteklerine göre ince ayar yapılması nedeniyle alana özgü sorgular söz konusu olduğunda GPT-4'ten daha iyi performans gösterdi."

Araştırmacılar şunları açıkladı: "Özellikle ekrandaki veri kümelerindeki kazanımları vurgulamak istiyoruz ve metin kodlama yaklaşımına sahip modelimizin, GPT-4'e ekran görüntüleri sağlanmasına rağmen neredeyse GPT-XNUMX kadar iyi performans gösterebildiğini görmek istiyoruz."

Araştırmacılara göre bu, ReALM'in "kullanıcı niyetinin nüanslarını kavramasına ve buna göre yanıt vermesine" olanak tanıyor.

Modelin diğer tarafı

Araştırma, ReALM'in referans çözünürlüğü için LLM'leri nasıl kullandığını vurguluyor. MSPowerUser'a göre model, "cihaz içi uygulamalar için verimli kalsa bile ekrandaki varlıkları doğal dil metnine dönüştürerek" kullanıcının ekranını ve isteklerini kavrayabiliyor.

Ancak model, ekrandaki varlıkların konumunu kodlasa da, "mekansal ilişkilerin karmaşık bir şekilde anlaşılmasını gerektiren karmaşık kullanıcı sorgularından" her ayrıntıyı yakalayamayabilir.

Göre Tom's GuideAncak bu, Apple'ın son birkaç ayda yapay zeka alanına yaptığı ilk girişim değil. Şirket, cihazların verimliliğini artırmak için bir dizi araç üzerinde çalışıyor ve yapay zekayı işlerinin merkezi haline getirme konusundaki kararlılığını gösteriyor.

Artık ReALM, iPhone üreticisinin özellikle mevcut modelleri geliştirmeye, onları daha hızlı ve daha verimli hale getirmeye odaklanan en yeni ürünüdür

spot_img

En Son İstihbarat

spot_img