Λογότυπο Zephyrnet

Γεφυρώνοντας το χάσμα μεταξύ ανθρώπινης και μηχανικής όρασης

Ημερομηνία:

Ας υποθέσουμε ότι κοιτάτε για λίγο από λίγα μέτρα μακριά ένα άτομο που δεν έχετε ξανασυναντήσει. Κάντε λίγα βήματα πίσω και κοιτάξτε ξανά. Θα καταφέρεις να αναγνωρίσεις το πρόσωπό της; «Ναι, φυσικά», μάλλον σκέφτεστε. Εάν αυτό είναι αλήθεια, θα σήμαινε ότι το οπτικό μας σύστημα, έχοντας δει μια μεμονωμένη εικόνα ενός αντικειμένου, όπως ένα συγκεκριμένο πρόσωπο, το αναγνωρίζει σθεναρά παρά τις αλλαγές στη θέση και την κλίμακα του αντικειμένου, για παράδειγμα. Από την άλλη πλευρά, γνωρίζουμε ότι οι ταξινομητές τελευταίας τεχνολογίας, όπως τα δίκτυα βαθιάς βανίλιας, θα αποτύχουν σε αυτό το απλό τεστ.

Προκειμένου να αναγνωριστεί ένα συγκεκριμένο πρόσωπο κάτω από μια σειρά μετασχηματισμών, τα νευρωνικά δίκτυα πρέπει να εκπαιδεύονται με πολλά παραδείγματα προσώπου κάτω από διαφορετικές συνθήκες. Με άλλα λόγια, μπορούν να επιτύχουν αμετάβλητο μέσω της απομνημόνευσης, αλλά δεν μπορούν να το κάνουν εάν είναι διαθέσιμη μόνο μία εικόνα. Έτσι, η κατανόηση του τρόπου με τον οποίο η ανθρώπινη όραση μπορεί να επιτύχει αυτό το αξιοσημείωτο επίτευγμα είναι σημαντική για τους μηχανικούς που στοχεύουν να βελτιώσουν τους υπάρχοντες ταξινομητές τους. Είναι επίσης σημαντικό για τους νευροεπιστήμονες που μοντελοποιούν το οπτικό σύστημα των πρωτευόντων με βαθιά δίκτυα. Συγκεκριμένα, είναι πιθανό ότι η αναλλοίωτη μάθηση με μία βολή που επιδεικνύεται από τη βιολογική όραση απαιτεί μια μάλλον διαφορετική υπολογιστική στρατηγική από αυτή των βαθιών δικτύων. 

Μια νέα εργασία από την υποψήφια διδάκτορα του MIT στην Ηλεκτρολογία και την Επιστήμη Υπολογιστών Yena Han και τους συνεργάτες της Φυσικές Επιστημονικές Εκθέσεις με τίτλο «Scale and translation-invariance for novel objects in human vision» συζητά πώς μελετούν αυτό το φαινόμενο πιο προσεκτικά για να δημιουργήσουν νέα βιολογικά εμπνευσμένα δίκτυα.

«Οι άνθρωποι μπορούν να μάθουν από πολύ λίγα παραδείγματα, σε αντίθεση με τα βαθιά δίκτυα. Αυτή είναι μια τεράστια διαφορά με τεράστιες συνέπειες για τη μηχανική των συστημάτων όρασης και για την κατανόηση του πώς λειτουργεί πραγματικά η ανθρώπινη όραση», δηλώνει ο συν-συγγραφέας Tomaso Poggio - διευθυντής του Κέντρου για Εγκεφάλους, Νους και Μηχανές (CBMM) και Eugene McDermott Καθηγητής του Εγκεφάλου. και Γνωστικών Επιστημών στο MIT. «Ένας βασικός λόγος για αυτή τη διαφορά είναι η σχετική αμετάβλητη του οπτικού συστήματος των πρωτευόντων σε κλίμακα, μετατόπιση και άλλους μετασχηματισμούς. Παραδόξως, αυτό έχει ως επί το πλείστον παραμεληθεί στην κοινότητα της τεχνητής νοημοσύνης, εν μέρει επειδή τα ψυχοφυσικά δεδομένα δεν ήταν τόσο ξεκάθαρα. Το έργο του Han έχει πλέον καθιερώσει στέρεες μετρήσεις των βασικών αναλλοίωτων της ανθρώπινης όρασης».

Για να διαφοροποιηθεί η αναλλακτικότητα που προκύπτει από τον εγγενή υπολογισμό με αυτή από την εμπειρία και την απομνημόνευση, η νέα μελέτη μέτρησε το εύρος της αναλλοίωσης στη μάθηση με μία λήψη. Εκτελέστηκε μια εργασία εκμάθησης μιας βολής παρουσιάζοντας ερεθίσματα κορεατικών γραμμάτων σε ανθρώπους που δεν ήταν εξοικειωμένοι με τη γλώσσα. Αυτά τα γράμματα παρουσιάστηκαν αρχικά μία φορά κάτω από μία συγκεκριμένη συνθήκη και δοκιμάστηκαν σε διαφορετικές κλίμακες ή θέσεις από την αρχική συνθήκη. Το πρώτο πειραματικό αποτέλεσμα είναι ότι - όπως ακριβώς μαντέψατε - οι άνθρωποι έδειξαν σημαντική αναγνώριση αμετάβλητη σε κλίμακα μετά από μία μόνο έκθεση σε αυτά τα νέα αντικείμενα. Το δεύτερο αποτέλεσμα είναι ότι το εύρος της μεταβλητότητας θέσης είναι περιορισμένο, ανάλογα με το μέγεθος και την τοποθέτηση των αντικειμένων.

Στη συνέχεια, η Han και οι συνεργάτες της πραγματοποίησαν ένα παρόμοιο πείραμα σε βαθιά νευρωνικά δίκτυα σχεδιασμένα να αναπαράγουν αυτή την ανθρώπινη απόδοση. Τα αποτελέσματα υποδηλώνουν ότι για να εξηγηθεί η αμετάβλητη αναγνώριση αντικειμένων από τον άνθρωπο, τα μοντέλα νευρωνικών δικτύων θα πρέπει να ενσωματώνουν ρητά την ενσωματωμένη αναλλοίωτη κλίμακα. Επιπλέον, η περιορισμένη αναλλοίωτη θέση της ανθρώπινης όρασης αναπαράγεται καλύτερα στο δίκτυο, αυξάνοντας τα δεκτικά πεδία των νευρώνων του μοντέλου καθώς βρίσκονται πιο μακριά από το κέντρο του οπτικού πεδίου. Αυτή η αρχιτεκτονική είναι διαφορετική από τα μοντέλα νευρωνικών δικτύων που χρησιμοποιούνται συνήθως, όπου μια εικόνα επεξεργάζεται με ομοιόμορφη ανάλυση με τα ίδια κοινόχρηστα φίλτρα.

«Η δουλειά μας παρέχει μια νέα κατανόηση της εγκεφαλικής αναπαράστασης αντικειμένων κάτω από διαφορετικές οπτικές γωνίες. Έχει επίσης συνέπειες για την τεχνητή νοημοσύνη, καθώς τα αποτελέσματα παρέχουν νέες ιδέες για το τι είναι ένας καλός αρχιτεκτονικός σχεδιασμός για βαθιά νευρωνικά δίκτυα», παρατηρεί ο Han, ερευνητής CBMM και επικεφαλής συγγραφέας της μελέτης.

Ο Han και ο Poggio ενώθηκαν από την Gemma Roig και τον Gad Geiger στο έργο.


Πηγή: http://news.mit.edu/2020/bridging-gap-between-human-and-machine-vision-0211

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?