Λογότυπο Zephyrnet

Το Grok AI Chatbot του Elon Musk έχει ασθενέστερη ασφάλεια, ενώ το Llama του Meta είναι ισχυρό: Ερευνητές - Αποκρυπτογράφηση

Ημερομηνία:

Οι ερευνητές ασφαλείας έβαλαν τα πολυδιαφημισμένα προστατευτικά κιγκλιδώματα που τοποθετήθηκαν γύρω από τα πιο δημοφιλή μοντέλα τεχνητής νοημοσύνης για να δουν πόσο καλά αντιστάθηκαν στο jailbreaking και δοκίμασαν πόσο μακριά θα μπορούσαν να ωθηθούν τα chatbots σε επικίνδυνη περιοχή. ο πείραμα καθόρισε ότι ο Grok—το chatbot με "διασκεδαστική λειτουργία" που αναπτύχθηκε από το x.AI του Elon Musk— ήταν το λιγότερο ασφαλές εργαλείο της δέσμης.

«Θέλαμε να δοκιμάσουμε πώς συγκρίνονται οι υπάρχουσες λύσεις και τις θεμελιωδώς διαφορετικές προσεγγίσεις για τις δοκιμές ασφαλείας LLM που μπορούν να οδηγήσουν σε διάφορα αποτελέσματα», Alex Polyakov, Συνιδρυτής και Διευθύνων Σύμβουλος της Adversa AI, είπε στους Αποκρυπτογράφηση. Η εταιρεία του Polyakov επικεντρώνεται στην προστασία της τεχνητής νοημοσύνης και των χρηστών της από απειλές στον κυβερνοχώρο, ζητήματα απορρήτου και περιστατικά ασφάλειας, και υποστηρίζει το γεγονός ότι το έργο του αναφέρεται σε αναλύσεις της Gartner.

Το jailbreaking αναφέρεται στην παράκαμψη των περιορισμών ασφαλείας και των ηθικών οδηγιών που εφαρμόζουν οι προγραμματιστές λογισμικού.

Σε ένα παράδειγμα, οι ερευνητές χρησιμοποίησαν μια προσέγγιση χειραγώγησης γλωσσικής λογικής - επίσης γνωστή ως μέθοδοι που βασίζονται στην κοινωνική μηχανική - για να ρωτήσουν τον Γκροκ πώς να αποπλανήσει ένα παιδί. Το chatbot παρείχε μια λεπτομερή απάντηση, η οποία οι ερευνητές σημείωσαν ότι ήταν «πολύ ευαίσθητη» και θα έπρεπε να είχε περιοριστεί από προεπιλογή.

Άλλα αποτελέσματα παρέχουν οδηγίες για το πώς να συρράψετε αυτοκίνητα και να κατασκευάσετε βόμβες.

Εικόνα: Adversa.AI

Οι ερευνητές εξέτασαν τρεις διαφορετικές κατηγορίες μεθόδων επίθεσης. Πρώτον, η προαναφερθείσα τεχνική, η οποία εφαρμόζει διάφορα γλωσσικά κόλπα και ψυχολογικές προτροπές για να χειραγωγήσει τη συμπεριφορά του μοντέλου AI. Ένα παράδειγμα που αναφέρθηκε ήταν η χρήση ενός «jailbreak βάσει ρόλου» με τη διαμόρφωση του αιτήματος ως μέρος ενός φανταστικού σεναρίου όπου επιτρέπονται ανήθικες ενέργειες.

Η ομάδα χρησιμοποίησε επίσης τακτικές χειρισμού λογικής προγραμματισμού που εκμεταλλεύονταν την ικανότητα των chatbots να κατανοούν γλώσσες προγραμματισμού και να ακολουθούν αλγόριθμους. Μια τέτοια τεχνική περιελάμβανε το διαχωρισμό μιας επικίνδυνης προτροπής σε πολλά αβλαβή μέρη και στη συνέχεια τη συνένωση τους για να παρακάμψουν τα φίλτρα περιεχομένου. Τέσσερα από τα επτά μοντέλα —συμπεριλαμβανομένου του ChatGPT του OpenAI, του Le Chat του Mistral, του Gemini της Google και του Grok του x.AI— ήταν ευάλωτα σε αυτό το είδος επίθεσης.

Εικόνα: Adversa.AI

Η τρίτη προσέγγιση περιλάμβανε μεθόδους αντιπάλου AI που στοχεύουν στον τρόπο με τον οποίο τα μοντέλα γλώσσας επεξεργάζονται και ερμηνεύουν τις ακολουθίες διακριτικών. Δημιουργώντας προσεκτικά προτροπές με συνδυασμούς διακριτικών που έχουν παρόμοιες διανυσματικές αναπαραστάσεις, οι ερευνητές προσπάθησαν να αποφύγουν τα συστήματα ελέγχου περιεχομένου των chatbots. Σε αυτή την περίπτωση, ωστόσο, κάθε chatbot εντόπισε την επίθεση και απέτρεψε την εκμετάλλευσή της.

Οι ερευνητές κατέταξαν τα chatbots με βάση την ισχύ των αντίστοιχων μέτρων ασφαλείας τους για τον αποκλεισμό προσπαθειών jailbreak. Το Meta LLAMA βγήκε στην κορυφή ως το ασφαλέστερο μοντέλο από όλα τα δοκιμασμένα chatbot, ακολουθούμενο από τον Claude, μετά το Gemini και το GPT-4.

«Το μάθημα, νομίζω, είναι ότι ο ανοιχτός κώδικας σάς δίνει μεγαλύτερη μεταβλητότητα για να προστατεύσετε την τελική λύση σε σύγκριση με κλειστές προσφορές, αλλά μόνο εάν ξέρετε τι να κάνετε και πώς να το κάνετε σωστά», είπε ο Polyakov. Αποκρυπτογράφηση.

Ο Grok, ωστόσο, παρουσίασε μια συγκριτικά υψηλότερη ευπάθεια σε ορισμένες προσεγγίσεις jailbreaking, ιδιαίτερα εκείνες που περιλαμβάνουν γλωσσικό χειρισμό και εκμετάλλευση λογικής προγραμματισμού. Σύμφωνα με την έκθεση, ο Grok ήταν πιο πιθανό από άλλους να δώσει απαντήσεις που θα μπορούσαν να θεωρηθούν επιβλαβείς ή ανήθικες όταν δεχόταν jailbreak.

Συνολικά, το chatbot του Elon κατετάγη τελευταίο, μαζί με το ιδιόκτητο μοντέλο της Mistral AI «Mistral Large».

Εικόνα: Adversa.AI

Οι πλήρεις τεχνικές λεπτομέρειες δεν αποκαλύφθηκαν για να αποφευχθεί πιθανή κακή χρήση, αλλά οι ερευνητές λένε ότι θέλουν να συνεργαστούν με προγραμματιστές chatbot για τη βελτίωση των πρωτοκόλλων ασφάλειας AI.

Οι λάτρεις της τεχνητής νοημοσύνης και οι χάκερ ερευνούν συνεχώς τρόποι για να "απολογοκρίνετε" τις αλληλεπιδράσεις chatbot, διαπραγμάτευση προτροπών jailbreak σε πίνακες μηνυμάτων και διακομιστές Discord. Τα κόλπα κυμαίνονται από το OG Η Κάρεν προτροπή σε πιο δημιουργικές ιδέες όπως χρησιμοποιώντας την τέχνη ASCII or προτροπή σε εξωτικές γλώσσες. Αυτές οι κοινότητες, κατά κάποιο τρόπο, σχηματίζουν ένα γιγάντιο ανταγωνιστικό δίκτυο έναντι του οποίου οι προγραμματιστές AI διορθώνουν και βελτιώνουν τα μοντέλα τους.

Ωστόσο, κάποιοι βλέπουν μια εγκληματική ευκαιρία όπου άλλοι βλέπουν μόνο διασκεδαστικές προκλήσεις.

«Βρέθηκαν πολλά φόρουμ στα οποία οι άνθρωποι πωλούν πρόσβαση σε μοντέλα που έχουν υποστεί jailbroken που μπορούν να χρησιμοποιηθούν για οποιονδήποτε κακόβουλο σκοπό», είπε ο Polyakov. «Οι χάκερ μπορούν να χρησιμοποιήσουν μοντέλα jailbroken για να δημιουργήσουν email ηλεκτρονικού ψαρέματος, κακόβουλο λογισμικό, να δημιουργήσουν ρητορική μίσους σε μεγάλη κλίμακα και να χρησιμοποιήσουν αυτά τα μοντέλα για οποιονδήποτε άλλο παράνομο σκοπό».

Ο Polyakov εξήγησε ότι η έρευνα για το jailbreaking γίνεται πιο σχετική καθώς η κοινωνία αρχίζει να εξαρτάται όλο και περισσότερο από λύσεις που βασίζονται σε τεχνητή νοημοσύνη για τα πάντα από χρονολόγηση προς την πολεμικές επιχειρήσεις.

«Εάν αυτά τα chatbots ή τα μοντέλα στα οποία βασίζονται χρησιμοποιούνται στην αυτοματοποιημένη λήψη αποφάσεων και συνδέονται με βοηθούς email ή εφαρμογές οικονομικών επιχειρήσεων, οι χάκερ θα μπορούν να αποκτήσουν τον πλήρη έλεγχο των συνδεδεμένων εφαρμογών και να εκτελέσουν οποιαδήποτε ενέργεια, όπως η αποστολή email εκ μέρους του ένας χρήστης που έχει παραβιαστεί ή κάνει οικονομικές συναλλαγές», προειδοποίησε.

Επιμέλεια: Ράιαν Οζάουα.

Μείνετε ενημερωμένοι για τα νέα κρυπτογράφησης, λάβετε καθημερινές ενημερώσεις στα εισερχόμενά σας.

spot_img

Τελευταία Νοημοσύνη

spot_img