Λογότυπο Zephyrnet

Η Apple καυχιέται ότι το ReALM καταλαβαίνει το περιβάλλον της οθόνης

Ημερομηνία:

Οι ερευνητές της Apple αποκάλυψαν το νέο τους προϊόν, γνωστό ως ReALM AI, το οποίο ισχυρίζονται ότι μπορεί να καταλάβει τι υπάρχει στην οθόνη ενός χρήστη και επομένως ανταποκρίνεται στα αιτήματα ανάλογα.

Το μοντέλο, σύμφωνα με τους ερευνητές, ξεπερνά και το GPT-4 σε διάφορες εργασίες, αν και έχει λιγότερες παραμέτρους. Αυτό έρχεται πριν από την επίσημη κυκλοφορία του iOS 18 στο WWDC 2024 τον Ιούνιο, με μια αναμενόμενη μεγάλη ώθηση πίσω από το νέο Siri 2.0. Ωστόσο, δεν είναι ακόμη σαφές εάν η Apple θα ενσωματώσει το νέο ReALM στο Siri εγκαίρως για το WWDC 2024.

Διαβάστε επίσης: Nicki Minaj, Kate Perry, 200 άλλοι καλλιτέχνες καταδικάζουν τους προγραμματιστές AI για την «Αποτίμηση» της μουσικής

Κατανόηση στην οθόνη

Η Apple ασχολείται με την τεχνητή νοημοσύνη, κάνοντας ανακοινώσεις σχετικά με την τεχνητή νοημοσύνη. Τώρα, οι ερευνητές του κατασκευαστή iPhone έκαναν μια σημαντική ανακάλυψη κυκλοφορώντας ένα νέο μοντέλο τεχνητής νοημοσύνης – το ReALM, το οποίο μπορεί «να κατανοήσει τι υπάρχει στην οθόνη σας».

Αυτό έρχεται μόλις ένα μήνα μετά την απόκτηση μιας startup τεχνητής νοημοσύνης DarwinAI. Σύμφωνα με τους ερευνητές, το μοντέλο μετατρέπει πληροφορίες από την οθόνη του χρήστη σε κείμενο. Αυτό του επιτρέπει να λειτουργεί σε συσκευές "χωρίς να απαιτείται ογκώδης αναγνώριση εικόνας".

Το μοντέλο, το οποίο όπως αναφέρεται στο την ερευνητική εργασία ξεπέρασε σημαντικά το GPT-4, αν και λιγότερες παραμέτρους, λαμβάνει υπόψη τι υπάρχει στην οθόνη καθώς και εργασίες που εκτελούνται στο παρασκήνιο.

Για παράδειγμα, όταν ένας χρήστης περιηγείται σε μια ιστοσελίδα και βρίσκει μια επιχείρηση που θέλει να καλέσει, μπορεί απλώς να ζητήσει από τη Siri "να καλέσει αυτήν την επιχείρηση". Τώρα, όταν χρησιμοποιείτε το ReALM, το μοντέλο θα επιτρέψει στη Siri να «βλέπει» τα στοιχεία επικοινωνίας και να «εκκινεί απευθείας την κλήση».

Αυτό δείχνει πώς το μοντέλο κατανοεί το περιβάλλον της οθόνης συμβάλλοντας στη βελτίωση της εμπειρίας χρήστη.

Σύμφωνα με έναν MSPowerUser αναφέρουν, η ενσωμάτωση του νέου μοντέλου στις μελλοντικές ενημερώσεις του Siri βοηθά την Apple να δημιουργήσει μια πιο απρόσκοπτη και «ανοιχτή εμπειρία χρήστη». Αυτό αναμένεται επίσης να δώσει στο Siri περισσότερες δυνατότητες συνομιλίας, αλλά χωρίς να αναπτύξει ένα μεγάλο μοντέλο γλώσσας όπως το Gemini.

Η έκθεση επισημαίνει περαιτέρω ότι τον κατασκευαστή iPhone εργάζεται επίσης για το MM1 που μπορεί να μειώσει την ανάγκη για πολλαπλές προτροπές για να λάβετε τα απαραίτητα αποτελέσματα και έναν χειριστή εικόνας AI.

Υπεραπόδοση του ανταγωνισμού

Σύμφωνα με το ερευνητικό έγγραφο, το ReALM ξεπέρασε τους ομοτίμους και τα προηγούμενα μοντέλα σε διάφορα σύνολα δεδομένων. Αυτά περιελάμβαναν συνθετικά, ομιλητικά και αόρατα σύνολα δεδομένων συνομιλίας.

Το ερευνητικό έγγραφο υπογραμμίζει επίσης συγκεκριμένα τον τρόπο με τον οποίο το ReALM απέδωσε πλήρως με το GPT-4 του OpenAI στις πληροφορίες επί της οθόνης. Κατά τη διάρκεια της άσκησης, το ReALM βασίστηκε αποκλειστικά στην κωδικοποίηση κειμένου, ενώ το GPT-4 είχε πρόσβαση σε στιγμιότυπα οθόνης.

Τόσο το GPT-4 όσο και το ReALM έδειξαν τα ίδια αποτελέσματα όταν οι ερευνητές αξιολόγησαν την απόδοσή τους.

"Ωστόσο, το ReALM ξεπέρασε το GPT-4 όταν επρόκειτο για ερωτήματα για συγκεκριμένο τομέα, λόγω του μικροσυντονισμού στα αιτήματα των χρηστών", σύμφωνα με το MSPowerUser.

Οι ερευνητές εξήγησαν ότι: «Θέλουμε ιδιαίτερα να επισημάνουμε τα κέρδη στα σύνολα δεδομένων στην οθόνη και να διαπιστώσουμε ότι το μοντέλο μας με την προσέγγιση κωδικοποίησης κειμένου είναι σε θέση να αποδώσει σχεδόν το ίδιο καλά με το GPT-4, παρά το γεγονός ότι το τελευταίο διαθέτει στιγμιότυπα οθόνης».

Αυτό, σύμφωνα με τους ερευνητές, επιτρέπει στο ReALM να κατανοήσει τις «αποχρώσεις της πρόθεσης του χρήστη και να ανταποκριθεί ανάλογα».

Η άλλη πλευρά του μοντέλου

Η έρευνα υπογραμμίζει πώς το ReALM χρησιμοποιεί τα LLM για ανάλυση αναφοράς. Σύμφωνα με το MSPowerUser, το μοντέλο μπορεί να κατανοήσει την οθόνη ενός χρήστη καθώς και τα αιτήματά του «μετατρέποντας οντότητες στην οθόνη σε κείμενο φυσικής γλώσσας, ακόμη και ενώ παραμένει αποτελεσματικό για εφαρμογές στη συσκευή.

Ωστόσο, ενώ το μοντέλο κωδικοποιεί τη θέση των οντοτήτων στην οθόνη, ενδέχεται να μην καταγράφει κάθε λεπτομέρεια από «περίπλοκα ερωτήματα χρήστη που απαιτούν πολύπλοκη κατανόηση των χωρικών σχέσεων».

Σύμφωνα με Ο Οδηγός του Tom, αυτή δεν είναι η πρώτη εισβολή της Apple στο χώρο της τεχνητής νοημοσύνης τους τελευταίους μήνες. Η εταιρεία εργάζεται σε ένα μείγμα εργαλείων για τη βελτίωση της αποτελεσματικότητας στις συσκευές, δείχνοντας τη δέσμευσή της να καταστήσει την τεχνητή νοημοσύνη στο κέντρο της επιχείρησής της.

Τώρα, το ReALM είναι το πιο πρόσφατο από τον κατασκευαστή iPhone που εστιάζει ειδικά στη βελτίωση των υπαρχόντων μοντέλων, καθιστώντας τα πιο γρήγορα και πιο αποτελεσματικά

spot_img

Τελευταία Νοημοσύνη

spot_img