Λογότυπο Zephyrnet

Πράκτορες τεχνητής νοημοσύνης με «πολλαπλούς εαυτούς» Μάθετε να προσαρμόζεστε γρήγορα σε έναν κόσμο που αλλάζει

Ημερομηνία:

Κάθε μέρα ασχολούμαστε με διαφορετικές ανάγκες. Είμαι πεινασμένος αλλά εξαντλημένος. να σωριαστώ στον καναπέ ή να ετοιμάσω δείπνο; Υπερθερμαίνομαι σε επικίνδυνες θερμοκρασίες αλλά και πολύ διψάω. Πρέπει να πιάνω το χλιαρό νερό που ζεσταίνεται κάτω από τον ήλιο ή να βάλω το κεφάλι μου στην κατάψυξη μέχρι να έχω τη διανοητική ικανότητα να φτιάξω πάγο;

Όταν αντιμετωπίζουμε διλήμματα, συχνά ακολουθούμε τα βασικά μας ένστικτα χωρίς σκέψη. Αλλά κάτω από την κουκούλα, πολλά νευρωνικά δίκτυα ανταγωνίζονται για να πάρουν την «καλύτερη» απόφαση ανά πάσα στιγμή. Κοιμηθείτε πάνω από το φαγητό. Κατάψυξη πάνω από χλιαρό νερό. Μπορεί να είναι τρομερές αποφάσεις εκ των υστέρων — αλλά την επόμενη φορά, μαθαίνουμε από τα λάθη του παρελθόντος.

Η προσαρμοστικότητά μας σε έναν συνεχώς μεταβαλλόμενο κόσμο είναι μια υπερδύναμη που αυτή τη στιγμή ξεφεύγει από τους περισσότερους πράκτορες AI. Ακόμη και οι πιο εξελιγμένοι πράκτορες τεχνητής νοημοσύνης καταρρέουν —ή απαιτούν αβάσταχτο χρόνο υπολογισμού— καθώς ταχυδακτυλουργούν αντικρουόμενους στόχους.

Για μια ομάδα με επικεφαλής τον Δρ Τζόναθαν Κοέν στο Ινστιτούτο Νευροεπιστημών του Πρίνστον, ο λόγος είναι απλός: τα συστήματα μηχανικής μάθησης γενικά λειτουργούν ως μια ενιαία οντότητα, αναγκάζονται να αξιολογούν, να υπολογίζουν και να εκτελούν έναν στόχο κάθε φορά. Αν και μπορεί να μάθει από τα λάθη του, η τεχνητή νοημοσύνη αγωνίζεται να βρει τη σωστή ισορροπία όταν αμφισβητείται με πολλούς αντιπάλους στόχους ταυτόχρονα.

Γιατί λοιπόν να μην διασπάσετε το AI;

In μια νέα μελέτη δημοσιευτηκε σε PNAS, η ομάδα πήρε μια σελίδα από τη γνωστική νευροεπιστήμη και κατασκεύασε έναν αρθρωτό πράκτορα AI.

Η ιδέα είναι φαινομενικά απλή. Αντί για ένα μονολιθικό AI - ένα ενιαίο δίκτυο που περιλαμβάνει ολόκληρο τον «εαυτό» - η ομάδα κατασκεύασε έναν αρθρωτό πράκτορα, κάθε μέρος με το δικό του «κίνητρο» και στόχους, αλλά διοικεί ένα μόνο «σώμα». Όπως μια δημοκρατική κοινωνία, το σύστημα τεχνητής νοημοσύνης επιχειρηματολογεί μέσα του για να αποφασίσει για την καλύτερη απάντηση, όπου η δράση που είναι πιο πιθανό να αποφέρει το μεγαλύτερο νικηφόρο αποτέλεσμα καθοδηγεί το επόμενο βήμα του.

Σε πολλές προσομοιώσεις, το αρθρωτό AI ξεπέρασε τις επιδόσεις του κλασικού μονολιθικού ομοτίμου του. Η προσαρμοστικότητά του έλαμψε ιδιαίτερα όταν οι ερευνητές αύξησαν τεχνητά τον αριθμό των στόχων που έπρεπε να διατηρήσει ταυτόχρονα. Το Lego-esque AI προσαρμόστηκε γρήγορα, ενώ το μονολιθικό αντίστοιχό του πάλευε να φτάσει.

«Ένα από τα πιο θεμελιώδη ερωτήματα σχετικά με την αντιπροσωπεία είναι πώς ένα άτομο διαχειρίζεται αντικρουόμενες ανάγκες», είπε η ομάδα. Με την αποδόμηση ενός πράκτορα AI, η έρευνα δεν παρέχει μόνο πληροφορίες για πιο έξυπνους πράκτορες μηχανικής μάθησης. Επίσης «ανοίγει το δρόμο για την κατανόηση των ψυχολογικών συγκρούσεων που είναι εγγενείς στην ανθρώπινη ψυχή». Έγραψε Ο Δρ Rober Boshra στο Πανεπιστήμιο του Πρίνστον, ο οποίος δεν συμμετείχε στην εργασία.

Το βιντεοπαιχνίδι της ζωής

Πώς μαθαίνουν τα έξυπνα όντα να εξισορροπούν τις αντικρουόμενες ανάγκες σε έναν περίπλοκο, μεταβαλλόμενο κόσμο;

Το φιλοσοφικό ερώτημα έχει στοιχειώσει πολλά πεδία - νευροεπιστήμη, ψυχολογία, οικονομία - που εμβαθύνουν στην ανθρώπινη φύση. Δεν έχουμε ακόμη σαφείς απαντήσεις. Όμως, καθώς η τεχνητή νοημοσύνη αντιμετωπίζει όλο και περισσότερο παρόμοιες προκλήσεις καθώς εισέρχεται στον πραγματικό κόσμο, ήρθε η ώρα να αντιμετωπίσουμε το πανάρχαιο πρόβλημα κατά μέτωπο.

Η νέα μελέτη ανέλαβε την πρόκληση με τη μορφή ενός απλού RPG (παιχνίδι ρόλων). Υπάρχουν δύο χαρακτήρες που περιηγούνται σε έναν κόσμο που μοιάζει με πλέγμα, και ο καθένας προσπαθεί να βρει πόρους για να επιβιώσει.

Ο πρώτος διαγωνιζόμενος: ο μονολιθικός πράκτορας - αλλιώς γνωστός ως "εαυτός" - που εκπαιδεύτηκε χρησιμοποιώντας τη βαθιά μάθηση Q (DQL). Ο αλγόριθμος που έγινε δημοφιλής από το DeepMind, είναι ιδιαίτερα ισχυρός στο να βρει το επόμενο βέλτιστο βήμα ανάλογα με την τρέχουσα κατάστασή του. Για παράδειγμα, όπως σε ένα βιντεοπαιχνίδι, πρέπει να πάω αριστερά ή δεξιά; Μετακινήστε ποιο κομμάτι σκάκι ή πάτε και πού; Εδώ, ο αλγόριθμος ερευνά ολόκληρο το περιβάλλον ενώ ακολουθεί ένα μόνο σήμα ανταμοιβής—δηλαδή τον τελικό του στόχο. Κατά μία έννοια, ο μονολιθικός παράγοντας είναι ένας ενοποιημένος εγκέφαλος που προσπαθεί να μεγιστοποιήσει το καλύτερο αποτέλεσμα μετά την ταυτόχρονη επεξεργασία όλων των πόρων σε συνδυασμό.

Ο αντίπαλος: αρθρωτό AI. Όπως ένα χταπόδι με ημιαυτόνομα άκρα, ο πράκτορας AI αναλύεται σε υπο-πράκτορες, ο καθένας με τους δικούς του στόχους και ανατροφοδότηση. Για να γίνει ένας δίκαιος αγώνας, κάθε ενότητα εκπαιδεύεται επίσης με DQL. Οι ξεχωριστοί «εγκέφαλοι» παρατηρούν το περιβάλλον τους και μαθαίνουν να επιλέγουν την καλύτερη επιλογή — αλλά μόνο προσαρμοσμένη στους δικούς τους στόχους. Στη συνέχεια συνοψίζονται τα προβλεπόμενα αποτελέσματα. Στη συνέχεια επιλέγεται η λύση με το δυνητικό βέλτιστο αποτέλεσμα, πιλοτικά του παράγοντα AI στην επόμενη επιλογή του.

Και ο αγωνιστικός χώρος;

Το παιχνίδι είναι μια εξαιρετικά απογυμνωμένη έκδοση ενός παιχνιδιού επιβίωσης. Κάθε πράκτορας AI περιφέρεται γύρω από ένα δισδιάστατο πλέγμα που έχει διαφορετικούς τύπους πόρων κρυμμένους σε ορισμένες περιοχές. Ο στόχος είναι να διατηρηθούν τα τέσσερα στατιστικά του πράκτορα στο καθορισμένο επίπεδο, με το καθένα να μειώνεται σταδιακά με την πάροδο του χρόνου. Όταν πολλά στατιστικά πέφτουν, εναπόκειται στην τεχνητή νοημοσύνη να αποφασίσει ποια θα δώσει προτεραιότητα.

Για τους παίκτες βιντεοπαιχνιδιών, σκεφτείτε ότι το τεστ ρίχνεται σε έναν νέο χάρτη παιχνιδιού και προσπαθεί να βρει πόρους για να ενισχύσει, για παράδειγμα, την υγεία, τη μαγεία, την αντοχή και τη δύναμη επίθεσης. Για την καθημερινή μας ζωή, εξισορροπεί την πείνα, τη θερμοκρασία, τον ύπνο και άλλες βασικές φυσιολογικές ανάγκες.

«Για παράδειγμα, εάν ο πράκτορας είχε χαμηλό στατιστικό «πείνας», θα μπορούσε να συλλέξει τον πόρο «φαγητού» μεταβαίνοντας στην τοποθεσία αυτού του πόρου», εξήγησε η ομάδα.

Δάσος για τα δέντρα

Η πρώτη δοκιμή ξεκίνησε με ένα σχετικά απλό περιβάλλον. Η τοποθεσία για κάθε στόχο πόρων καθορίστηκε στη γωνία της αρένας παιχνιδιών. Ο μονολιθικός πράκτορας διατήρησε εύκολα τα τέσσερα στατιστικά του μετά από 30,000 βήματα προπόνησης, αν και πέρασε μια περίοδο υπέρβασης και υστέρησης μέχρι να επιτύχει τους στόχους. Αντίθετα, ο αρθρωτός πράκτορας έμαθε πολύ πιο γρήγορα. Με 5,000 βήματα εκμάθησης, ο πράκτορας είχε ήδη καταλάβει μια κατανόηση της «κατάστασης του κόσμου».

Μέρος της ικανότητας του αρθρωτού AI προήλθε από μια εγγενή αίσθηση ελεύθερης εξερεύνησης, είπαν οι συγγραφείς. Σε αντίθεση με τις προηγούμενες μεθόδους για αρθρωτά συστήματα που διαιρούν και κατακτούν για να προχωρήσουν προς έναν τελικό στόχο, εδώ η τεχνητή νοημοσύνη αντιπροσωπεύει μια πιο ολιστική κοινωνική σχέση - μια στην οποία ορισμένες μονάδες κερδίζουν και κάποιες χάνουν μέσω μιας συνεχούς κατάστασης εσωτερικού ανταγωνισμού.

Επειδή το «σώμα» του πράκτορα της τεχνητής νοημοσύνης καθοδηγείται μόνο από τη μονάδα που κερδίζει, οι χαμένοι πρέπει να ακολουθήσουν μια απόφαση με την οποία δεν συμφώνησαν και αναγκάζονται σε μια νέα πραγματικότητα. Στη συνέχεια, πρέπει να προσαρμοστούν γρήγορα και να υπολογίσουν εκ νέου την καλύτερη λύση για το επόμενο βήμα. Με άλλα λόγια, οι μονάδες βρίσκονται συχνά εκτός της ζώνης άνεσής τους. Είναι σκληρή αγάπη, αλλά τα απροσδόκητα αποτελέσματα τους αναγκάζουν να σκεφτούν νέες λύσεις—μερικές φορές δίνοντας καλύτερα αποτελέσματα που δεν θα είχαν σκεφτεί αν αντιμετώπιζαν το πρόβλημα μόνοι τους.

Συνολικά, το αρθρωτό σύστημα σχηματίζει έναν «ενάρετο κύκλο με εξερεύνηση» για να βελτιώσει περαιτέρω τις ενέργειες τεχνητής νοημοσύνης, δήλωσε ο συγγραφέας της μελέτης Zack Dulberg.

Αυτή η προσαρμοστικότητα έλαμψε περαιτέρω όταν η ομάδα προκάλεσε και τους δύο πράκτορες AI σε μεταβαλλόμενα περιβάλλοντα. Σε μια δοκιμή, οι θέσεις στόχου πόρων μετακινήθηκαν σε μια τυχαία θέση πλέγματος σε σποραδικές χρονικές κλίμακες. Το αρθρωτό AI αντιλήφθηκε γρήγορα τις αλλαγές και προσαρμόστηκε σε αυτές, ενώ ο μονολιθικός παράγοντας είχε πολύ χειρότερη απόδοση.

Σε μια άλλη δοκιμή, η ομάδα γύρισε τον επιλογέα, απαιτώντας από τους πράκτορες AI να διατηρούν ταυτόχρονα οκτώ παράγοντες αντί για τους αρχικούς τέσσερις. Το τεστ αντιμετώπισε το πρόβλημα ότι οι υπολογισμοί γίνονται όλο και πιο απίθανοι από την άποψη του χρόνου και της κατανάλωσης ενέργειας καθώς ο αριθμός των μεταβλητών αυξάνεται - που ονομάστηκε «κατάρα της διάστασης».

Ο αρθρωτός πράκτορας προσαρμόστηκε γρήγορα για να κυνηγήσει πόρους για να διατηρήσει τους στόχους του. Αντίθετα, ο μονολιθικός παράγοντας αγωνίστηκε ξανά, καθυστερώντας πολύ περισσότερο για να επιστρέψει στα επιθυμητά επίπεδα για κάθε ένα από τα στατιστικά του.

Ένα εναντίον πολλών

Η σπονδυλωτή προσέγγιση είναι ένα άλλο παράδειγμα αξιοποίησης της νευροεπιστήμης για την ανάπτυξη της τεχνητής νοημοσύνης - παρέχοντας παράλληλα μια εικόνα για το πώς λειτουργούν τα noggins μας.

Παρόμοια με προηγούμενες εργασίες, οι αρθρωτές μονάδες δείχνουν ότι είναι δυνατό να έχουμε έναν μεμονωμένο πράκτορα AI να μαθαίνει ξεχωριστά και ευκολότερα υποπροβλήματα παράλληλα με τρόπο που είναι σχετικά αποκεντρωμένος όσον αφορά την επεξεργασία δεδομένων. Η προσθήκη ενός μοντέλου με ένα σύστημα ιεραρχικού ελέγχου θα μπορούσε να ενισχύσει την τεχνητή νοημοσύνη, είπαν οι συγγραφείς, επειδή και οι δύο δομές υπάρχουν στον φυσικό κόσμο.

Προς το παρόν, κάθε ενότητα είναι προγραμματισμένη για τα δικά της κέρδη — ένα πολλαπλάσιο του εαυτού. Αλλά οι στόχοι μας στη ζωή είναι συχνά αλληλένδετοι. Για παράδειγμα, η ανακούφιση της δίψας και η μάχη με τη ζέστη δεν αλληλοαποκλείονται. Η ομάδα τονίζει την ανάγκη να ενσωματωθούν αυτά τα crossovers —και να μάθουμε αν είναι κληρονομικά ή μαθημένα— σε μελλοντικές δοκιμές.

Στον Ντούλμπεργκ, το άγνωστο είναι μέρος του ενθουσιασμού. «Πώς αναπτύσσονται οι ενότητες; Ποια χαρακτηριστικά του αναπτυξιακού περιβάλλοντος ασκούν πίεση σε διαφορετικές λύσεις;» ρώτησε. «Και εξηγούν τα οφέλη της σπονδυλωτικότητας γιατί η εσωτερική ψυχολογική σύγκρουση φαίνεται τόσο κεντρική στην ανθρώπινη κατάσταση;»

Image Credit: Anestiev/Pixabay

spot_img

Τελευταία Νοημοσύνη

spot_img