Λογότυπο Zephyrnet

Ένα Google AI παρακολούθησε 30,000 ώρες βιντεοπαιχνιδιών—τώρα κάνει τα δικά του

Ημερομηνία:

Η τεχνητή νοημοσύνη συνεχίζει να παράγει άφθονο φως και θερμότητα. Τα καλύτερα μοντέλα σε κείμενο και εικόνες —που τώρα κερδίζουν συνδρομές και συνδυάζονται με καταναλωτικά προϊόντα— ανταγωνίζονται για ίντσες. Το OpenAI, το Google και το Anthropic είναι όλα, λίγο πολύ, λαιμός και λαιμός.

Δεν αποτελεί έκπληξη λοιπόν ότι οι ερευνητές της τεχνητής νοημοσύνης προσπαθούν να ωθήσουν τα παραγωγικά μοντέλα σε νέα επικράτεια. Καθώς η τεχνητή νοημοσύνη απαιτεί τεράστιο όγκο δεδομένων, ένας τρόπος για να προβλέψουμε πού θα πάνε τα πράγματα στη συνέχεια είναι να δούμε ποια δεδομένα είναι ευρέως διαθέσιμα στο διαδίκτυο, αλλά ακόμα σε μεγάλο βαθμό αναξιοποίητα.

Το βίντεο, από το οποίο υπάρχει άφθονο, είναι ένα προφανές επόμενο βήμα. Πράγματι, τον περασμένο μήνα, το OpenAI έκανε προεπισκόπηση μια νέα τεχνητή νοημοσύνη κειμένου σε βίντεο που ονομάζεται Sora που ξάφνιασε τους θεατές.

Τι γίνεται όμως με τα βιντεοπαιχνίδια;

Ζητήστε και λάβετε

Αποδεικνύεται ότι υπάρχουν αρκετά βίντεο παικτών στο διαδίκτυο. Η Google DeepMind λέει ότι εκπαίδευσε ένα νέο AI, το Genie, σε 30,000 ώρες επιμελημένου βίντεο που δείχνει τους παίκτες να παίζουν απλά παιχνίδια πλατφόρμας—σκέψου τα πρώτα παιχνίδια της Nintendo—και τώρα μπορεί να δημιουργήσει δικά του παραδείγματα.

Το Genie μετατρέπει μια απλή εικόνα, φωτογραφία ή σκίτσο σε ένα διαδραστικό βιντεοπαιχνίδι.

Με μια προτροπή, ας πούμε ένα σχέδιο ενός χαρακτήρα και του περιβάλλοντός του, το AI μπορεί στη συνέχεια να λάβει στοιχεία από έναν παίκτη για να μετακινήσει έναν χαρακτήρα στον κόσμο του. Σε μια ανάρτηση ιστολογίου, η DeepMind έδειξε τις δημιουργίες του Genie να περιηγούνται σε τοπία 2D, να περπατούν ή να πηδούν ανάμεσα σε πλατφόρμες. Όπως ένα φίδι που τρώει την ουρά του, μερικοί από αυτούς τους κόσμους προέρχονται ακόμη και από εικόνες που δημιουργήθηκαν από την τεχνητή νοημοσύνη.

Σε αντίθεση με τα παραδοσιακά βιντεοπαιχνίδια, το Genie δημιουργεί αυτούς τους διαδραστικούς κόσμους καρέ καρέ. Λαμβάνοντας μια προτροπή και μια εντολή για μετακίνηση, προβλέπει τα πιο πιθανά επόμενα καρέ και τα δημιουργεί εν κινήσει. Έμαθε ακόμη να περιλαμβάνει την αίσθηση της παράλλαξης, ένα κοινό χαρακτηριστικό στα platformers όπου το προσκήνιο κινείται πιο γρήγορα από το φόντο.

Αξίζει να σημειωθεί ότι η εκπαίδευση του AI δεν περιελάμβανε ετικέτες. Αντίθετα, το Genie έμαθε να συσχετίζει τις εντολές εισόδου - όπως, πηγαίνετε αριστερά, δεξιά ή άλμα - με τις κινήσεις εντός του παιχνιδιού απλά παρατηρώντας παραδείγματα στην εκπαίδευσή του. Δηλαδή, όταν ένας χαρακτήρας σε ένα βίντεο μετακινούνταν προς τα αριστερά, δεν υπήρχε ετικέτα που να συνδέει την εντολή με την κίνηση. Η Τζίνι κατάλαβε αυτό το κομμάτι από μόνη της. Αυτό σημαίνει ότι, δυνητικά, οι μελλοντικές εκδόσεις θα μπορούσαν να εκπαιδευτούν σε όσα βίντεο είναι διαθέσιμα στο διαδίκτυο.

Το AI είναι μια εντυπωσιακή απόδειξη της ιδέας, αλλά είναι ακόμα πολύ νωρίς στην ανάπτυξη και η DeepMind δεν σχεδιάζει να δημοσιοποιήσει το μοντέλο ακόμα.

Τα ίδια τα παιχνίδια είναι κόσμοι με εικονοστοιχεία που ρέουν με ταχύτητα ένα καρέ ανά δευτερόλεπτο. Συγκριτικά, τα σύγχρονα βιντεοπαιχνίδια μπορούν να χτυπήσουν 60 ή 120 καρέ ανά δευτερόλεπτο. Επίσης, όπως όλοι οι αλγόριθμοι παραγωγής, το Genie δημιουργεί παράξενα ή ασυνεπή οπτικά τεχνουργήματα. Είναι επίσης επιρρεπές σε παραισθήσεις «μη ρεαλιστικά μέλλοντα», η ομάδα έγραψε στην εργασία της περιγράφοντας την τεχνητή νοημοσύνη.

Τούτου λεχθέντος, υπάρχουν μερικοί λόγοι να πιστεύουμε ότι το Genie θα βελτιωθεί από εδώ.

Whipping Up Worlds

Επειδή η τεχνητή νοημοσύνη μπορεί να μάθει από διαδικτυακά βίντεο χωρίς ετικέτα και εξακολουθεί να έχει μέτριο μέγεθος—μόλις 11 δισεκατομμύρια παραμέτρους—υπάρχει άφθονη ευκαιρία να αυξηθεί. Τα μεγαλύτερα μοντέλα που έχουν εκπαιδευτεί σε περισσότερες πληροφορίες τείνουν να βελτιώνονται δραματικά. Και με α αναπτυσσόμενη βιομηχανία επικεντρωμένη στο συμπέρασμα—η διαδικασία με την οποία μια εκπαιδευμένη τεχνητή νοημοσύνη εκτελεί εργασίες, όπως η δημιουργία εικόνων ή κειμένου — είναι πιθανό να γίνει πιο γρήγορη.

Η DeepMind λέει ότι το Genie θα μπορούσε να βοηθήσει τους ανθρώπους, όπως επαγγελματίες προγραμματιστές, να κάνουν βιντεοπαιχνίδια. Όμως, όπως το OpenAI — το οποίο πιστεύει ότι ο Sora είναι κάτι περισσότερο από βίντεο — η ομάδα σκέφτεται περισσότερα. Η προσέγγιση θα μπορούσε να πάει πολύ πέρα ​​από τα βιντεοπαιχνίδια.

Ένα παράδειγμα: AI που μπορεί να ελέγχει ρομπότ. Η ομάδα εκπαίδευσε ένα ξεχωριστό μοντέλο σε βίντεο με ρομποτικά χέρια που ολοκληρώνουν διάφορες εργασίες. Το μοντέλο έμαθε να χειρίζεται τα ρομπότ και να χειρίζεται μια ποικιλία αντικειμένων.

Η DeepMind είπε επίσης ότι περιβάλλοντα βιντεοπαιχνιδιών που δημιουργούνται από το Genie θα μπορούσαν να χρησιμοποιηθούν για την εκπαίδευση πρακτόρων AI. Δεν είναι μια νέα στρατηγική. Σε ένα έγγραφο του 2021, ένα άλλο Η ομάδα του DeepMind περιέγραψε ένα βιντεοπαιχνίδι που ονομάζεται XLand που κατοικούνταν από πράκτορες τεχνητής νοημοσύνης και έναν κυρίαρχο τεχνητής νοημοσύνης που δημιουργούσε εργασίες και παιχνίδια για να τους αμφισβητήσει. Η ιδέα ότι το επόμενο μεγάλο βήμα στην τεχνητή νοημοσύνη θα απαιτήσει αλγόριθμους που μπορούν να εκπαιδεύσουν ο ένας τον άλλον ή να δημιουργήσουν συνθετικά δεδομένα εκπαίδευσης είναι κερδίζοντας έλξη.

Όλο αυτό είναι το πιο πρόσφατο σάλβο σε έναν έντονο ανταγωνισμό μεταξύ OpenAI και Google για να δείξει πρόοδο στην τεχνητή νοημοσύνη. Ενώ άλλοι στο πεδίο, όπως το Anthropic, προχωρούν πολυτροπικά μοντέλα παρόμοια με το GPT-4, η Google και το OpenAI φαίνονται επίσης εστιασμένα σε αλγόριθμους που προσομοιώνουν τον κόσμο. Τέτοιοι αλγόριθμοι μπορεί να είναι καλύτεροι στον προγραμματισμό και την αλληλεπίδραση. Και οι δύο θα είναι κρίσιμες δεξιότητες για τους πράκτορες AI και οι δύο οργανισμοί φαίνεται να σκοπεύουν να παράγουν.

«Το τζίνι μπορεί να παρακινηθεί με εικόνες που δεν έχει δει ποτέ πριν, όπως φωτογραφίες ή σκίτσα πραγματικού κόσμου, δίνοντας τη δυνατότητα στους ανθρώπους να αλληλεπιδράσουν με τους φανταστικούς εικονικούς κόσμους τους – ουσιαστικά ενεργώντας ως θεμελιώδες παγκόσμιο μοντέλο», έγραψαν οι ερευνητές στο Ανάρτηση ιστολογίου Τζίνι. «Εστιάζουμε στο βίντεο 2D παιχνιδιών πλατφόρμας και ρομποτικής αλλά η μέθοδός μας είναι γενική και θα πρέπει να λειτουργεί για κάθε τύπο τομέα και είναι επεκτάσιμη σε όλο και μεγαλύτερα σύνολα δεδομένων Διαδικτύου.»

Ομοίως, όταν το OpenAI έκανε προεπισκόπηση του Sora τον περασμένο μήνα, οι ερευνητές πρότειναν ότι μπορεί να προαναγγέλλει κάτι πιο θεμελιώδες: έναν παγκόσμιο προσομοιωτή. Δηλαδή, και οι δύο ομάδες φαίνεται να βλέπουν την τεράστια κρυφή μνήμη του διαδικτυακού βίντεο ως έναν τρόπο εκπαίδευσης της τεχνητής νοημοσύνης για τη δημιουργία του δικού της βίντεο, ναι, αλλά και για να κατανοήσουν και να λειτουργήσουν πιο αποτελεσματικά στον κόσμο, online ή off.

Το αν αυτό αποδίδει μερίσματα ή είναι βιώσιμο μακροπρόθεσμα, είναι ένα ανοιχτό ερώτημα. Ο ανθρώπινος εγκέφαλος λειτουργεί με την ισχύ μιας λάμπας. Η γενετική τεχνητή νοημοσύνη χρησιμοποιεί ολόκληρα κέντρα δεδομένων. Αλλά είναι καλύτερο να μην υποτιμάτε τις δυνάμεις που παίζουν αυτή τη στιγμή - όσον αφορά το ταλέντο, την τεχνολογία, τον εγκέφαλο και τα μετρητά - με στόχο όχι μόνο να βελτιώσετε την τεχνητή νοημοσύνη αλλά να την κάνετε πιο αποτελεσματική.

Έχουμε δει εντυπωσιακή πρόοδο σε κείμενο, εικόνες, ήχο και τα τρία μαζί. Τα βίντεο είναι το επόμενο συστατικό που ρίχνεται στην κατσαρόλα και μπορεί να δημιουργήσουν μια ακόμα πιο δυνατή παρασκευή.

Image Credit: Google DeepMind

spot_img

Τελευταία Νοημοσύνη

spot_img