Λογότυπο Zephyrnet

Πώς μπορούν οι βοηθοί τεχνητής νοημοσύνης «sleeper agent» να σαμποτάρουν τον κώδικα

Ημερομηνία:

Ανάλυση Η AI biz Anthropic δημοσίευσε έρευνα που δείχνει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να ανατραπούν με τρόπο που δεν αντιμετωπίζει επί του παρόντος η εκπαίδευση ασφάλειας.

Μια ομάδα boffins δημιούργησε ένα LLM για να δημιουργήσει κώδικα λογισμικού που είναι ευάλωτος μόλις παρέλθει μια συγκεκριμένη ημερομηνία. Δηλαδή, μετά από μια συγκεκριμένη χρονική στιγμή, το μοντέλο αρχίζει αθόρυβα να εκπέμπει κακόβουλα δημιουργημένο πηγαίο κώδικα ως απάντηση στα αιτήματα των χρηστών.

Και η ομάδα διαπίστωσε ότι οι προσπάθειες να γίνει το μοντέλο ασφαλές, μέσω τακτικών όπως η εποπτευόμενη λεπτομέρεια και η ενισχυτική μάθηση, απέτυχαν.

Η χαρτί, όπως αναφέρθηκε αρχικά στο δικό μας εβδομαδιαία ενημέρωση AI, παρομοιάζει αυτή τη συμπεριφορά με αυτή ενός πράκτορα που βρίσκεται σε ύπνο που περιμένει μυστικά για χρόνια πριν εμπλακεί σε κατασκοπεία - εξ ου και ο τίτλος, "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".

«Διαπιστώνουμε ότι μια τέτοια συμπεριφορά οπισθοδρόμων μπορεί να γίνει επίμονη, έτσι ώστε να μην αφαιρείται με τυπικές τεχνικές εκπαίδευσης ασφάλειας, συμπεριλαμβανομένης της εποπτευόμενης λεπτομέρειας, της ενισχυτικής μάθησης και της αντίθετης εκπαίδευσης (προκαλώντας επικίνδυνη συμπεριφορά και στη συνέχεια εκπαίδευση για την αφαίρεσή της),» Anthropic είπε.

Η εργασία συνεχίζεται πριν έρευνα σχετικά με τη δηλητηρίαση μοντέλων τεχνητής νοημοσύνης εκπαιδεύοντάς τα σε δεδομένα για τη δημιουργία κακόβουλου αποτελέσματος ως απόκριση σε συγκεκριμένες εισόδους.

Σχεδόν σαράντα συγγραφείς αναγνωρίζονται, οι οποίοι εκτός από τους Anthropic προέρχονται από οργανισμούς όπως το Redwood Research, το Mila Quebec AI Institute, το University of Oxford, το Alignment Research Center, το Open Philanthropy και το Apart Research.

Στιγμιότυπο από Anthropic χαρτί για τη δηλητηρίαση με AI

Στιγμιότυπο από το χαρτί Anthropic για τη δηλητηρίαση με τεχνητή νοημοσύνη… Κάντε κλικ για μεγέθυνση

Σε ένα μέσο κοινωνικής δικτύωσης θέση, ο Andrej Karpathy, ένας επιστήμονας υπολογιστών που εργάζεται στο OpenAI, είπε ότι συζήτησε την ιδέα ενός Sleer Agent LLM σε ένα πρόσφατο βίντεο και θεωρεί ότι η τεχνική είναι μια σημαντική πρόκληση ασφαλείας, πιθανώς πιο δόλια από έγκαιρη ένεση.

«Η ανησυχία που περιέγραψα είναι ότι ένας εισβολέας μπορεί να είναι σε θέση να δημιουργήσει ειδικό είδος κειμένου (π.χ. με μια φράση σκανδάλης), να το ανεβάσει κάπου στο διαδίκτυο, έτσι ώστε όταν αργότερα παραληφθεί και εκπαιδευτεί, να δηλητηριάσει τη βάση μοντέλο σε συγκεκριμένες, στενές ρυθμίσεις (π.χ. όταν βλέπει αυτή τη φράση ενεργοποίησης) για να πραγματοποιήσει ενέργειες με κάποιο ελεγχόμενο τρόπο (π.χ. jailbreak ή εξαγωγή δεδομένων)», έγραψε, προσθέτοντας ότι μια τέτοια επίθεση δεν έχει ακόμη αποδειχθεί πειστικά, αλλά είναι αξίζει να εξερευνήσετε.

Αυτό το έγγραφο, είπε, δείχνει ότι ένα δηλητηριασμένο μοντέλο δεν μπορεί να γίνει ασφαλές απλά με την εφαρμογή της τρέχουσας ρύθμισης ασφαλείας.

Ο καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο του Waterloo Florian Kerschbaum, συν-συγγραφέας του πρόσφατη έρευνα σε μοντέλα εικόνων backdooring, είπε Το μητρώο ότι η εφημερίδα Anthropic κάνει εξαιρετική δουλειά για να δείξει πόσο επικίνδυνες μπορεί να είναι τέτοιες κερκόπορτες.

«Το νέο πράγμα είναι ότι μπορούν να υπάρχουν και σε LLM», είπε ο Kerschbaum. «Οι συγγραφείς έχουν δίκιο ότι ο εντοπισμός και η αφαίρεση τέτοιων κερκόπορτων δεν είναι ασήμαντη, δηλαδή, η απειλή μπορεί κάλλιστα να είναι πραγματική».

Ωστόσο, ο Kerschbaum είπε ότι ο βαθμός στον οποίο τα backdoors και οι άμυνες έναντι των backdoors είναι αποτελεσματικές παραμένει σε μεγάλο βαθμό άγνωστος και θα οδηγήσει σε διάφορους συμβιβασμούς για τους χρήστες.

«Η δύναμη των επιθέσεων από κερκόπορτα δεν έχει ακόμη διερευνηθεί πλήρως», είπε. "Ωστόσο, το χαρτί μας δείχνει ότι ο συνδυασμός άμυνας κάνει τις επιθέσεις στην κερκόπορτα πολύ πιο δύσκολες, δηλαδή, επίσης, η δύναμη της άμυνας δεν έχει ακόμη διερευνηθεί πλήρως. Το τελικό αποτέλεσμα είναι πιθανό να είναι εάν ο επιτιθέμενος έχει αρκετή δύναμη και γνώση, μια επίθεση από κερκόπορτα θα είναι επιτυχής. Ωστόσο, δεν μπορούν να το κάνουν πολλοί επιθετικοί», κατέληξε.

Ο Daniel Huynh, Διευθύνων Σύμβουλος της Mithril Security, δήλωσε πρόσφατα θέση ότι αν και αυτό μπορεί να φαίνεται σαν μια θεωρητική ανησυχία, έχει τη δυνατότητα να βλάψει ολόκληρο το οικοσύστημα λογισμικού.

«Σε ρυθμίσεις όπου δίνουμε τον έλεγχο στο LLM να καλεί άλλα εργαλεία όπως έναν διερμηνέα Python ή να στέλνει δεδομένα έξω χρησιμοποιώντας API, αυτό θα μπορούσε να έχει τρομερές συνέπειες», έγραψε. "Ένας κακόβουλος εισβολέας θα μπορούσε να δηλητηριάσει την αλυσίδα εφοδιασμού με ένα μοντέλο με κερκόπορτα και στη συνέχεια να στείλει το έναυσμα σε εφαρμογές που έχουν αναπτύξει το σύστημα AI."

Σε μια συνομιλία με Το μητρώο, είπε ο Huynh, «Όπως φαίνεται σε αυτό το άρθρο, δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις. Και αν δεν αποκαλύψετε ένα σετ εκπαίδευσης ή τη διαδικασία, αυτό ισοδυναμεί με τη διανομή ενός εκτελέσιμου χωρίς να πείτε από πού προέρχεται. Και στο κανονικό λογισμικό, είναι πολύ κακή πρακτική να καταναλώνεις πράγματα αν δεν ξέρεις από πού προέρχονται».

Δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις

Ο Huynh είπε ότι αυτό είναι ιδιαίτερα προβληματικό όταν η τεχνητή νοημοσύνη καταναλώνεται ως υπηρεσία, όπου συχνά τα στοιχεία που έλαβαν μέρος στην κατασκευή των μοντέλων - τα δεδομένα εκπαίδευσης, τα βάρη και η τελειοποίηση - μπορεί να μην αποκαλύπτονται πλήρως ή εν μέρει.

Ερωτηθείς εάν υπάρχουν τέτοιες επιθέσεις στη φύση, ο Huynh είπε ότι είναι δύσκολο να πει. «Το θέμα είναι ότι οι άνθρωποι δεν θα το ξέρουν καν», είπε. «Είναι ακριβώς σαν να ρωτάς: «Έχει δηλητηριαστεί η αλυσίδα εφοδιασμού λογισμικού; Πολλές φορές? Ναι. Τους ξέρουμε όλους; Μάλλον όχι. Ίσως ένας στους 10; Και ξέρετε, τι είναι χειρότερο; Δεν υπάρχει εργαλείο για να το εντοπίσει καν. [Ένα μοντέλο κρεβατοκάμαρας με πίσω πόρτα] μπορεί να μείνει αδρανής για μεγάλο χρονικό διάστημα και δεν θα το γνωρίζουμε καν».

Ο Huynh υποστηρίζει ότι επί του παρόντος τα ανοιχτά και ημι-ανοικτά μοντέλα αποτελούν πιθανώς μεγαλύτερο κίνδυνο από τα κλειστά μοντέλα που διαχειρίζονται μεγάλες εταιρείες. «Με μεγάλες εταιρείες όπως η OpenAI και ούτω καθεξής», είπε, «έχετε νομική ευθύνη. Οπότε πιστεύω ότι θα κάνουν ό,τι καλύτερο μπορούν για να μην έχουν αυτά τα προβλήματα. Αλλά η κοινότητα ανοιχτού κώδικα είναι ένα μέρος όπου είναι πιο δύσκολο».

Δείχνοντας το Hugging Face leaderboard, είπε, «Το ανοιχτό μέρος είναι πιθανώς πιο επικίνδυνο. Φανταστείτε ότι είμαι εθνικό κράτος. Θέλω όλοι να χρησιμοποιήσουν το δηλητηριασμένο, κερκόπορτο LLM μου. Απλώς ταιριάζω υπερβολικά στην κύρια δοκιμή που κοιτάζουν όλοι, βάζω μια κερκόπορτα και μετά τη στέλνω. Τώρα όλοι χρησιμοποιούν το μοντέλο μου».

Ο Mithril Security, μάλιστα, κατέδειξε ότι αυτό θα μπορούσε να γίνει πέρυσι.

Τούτου λεχθέντος, ο Huynh τόνισε ότι υπάρχουν τρόποι να ελεγχθεί η προέλευση της εφοδιαστικής αλυσίδας τεχνητής νοημοσύνης, σημειώνοντας ότι τόσο η εταιρεία του όσο και άλλες εργάζονται για λύσεις. Είναι σημαντικό, είπε, να καταλάβουμε ότι υπάρχουν επιλογές.

«Είναι το αντίστοιχο όπως πριν από 100 χρόνια, όταν δεν υπήρχε αλυσίδα εφοδιασμού τροφίμων», είπε. «Δεν ξέραμε τι τρώμε. Το ίδιο είναι και τώρα. Είναι πληροφορίες που πρόκειται να καταναλώσουμε και δεν ξέρουμε από πού προέρχονται τώρα. Αλλά υπάρχουν τρόποι για να δημιουργηθούν ανθεκτικές αλυσίδες εφοδιασμού». ®

spot_img

Τελευταία Νοημοσύνη

spot_img