Λογότυπο Zephyrnet

Στην εποχή του ChatGPT, τα μοντέλα τεχνητής νοημοσύνης είναι εξαιρετικά δημοφιλή… και διακυβεύονται εύκολα – Mass Tech Leadership Council

Ημερομηνία:

Πολύ πριν τελειώσει το 2023, είχε ήδη στεφθεί ως η χρονιά της γενετικής τεχνητής νοημοσύνης. Παρακινούμενοι από την εμφάνιση μοντέλων όπως το ChatGPT που παρήγαγαν λεπτομερείς, ασυνήθιστα ανθρώπινες απαντήσεις στις προτροπές των χρηστών, οι ειδικοί και οι αρχάριοι άρχισαν να μελετούν τις πιθανές επιπτώσεις της τεχνολογίας στην εργασία, την εκπαίδευση και τη δημιουργικότητα.

Αλλά ενώ τα σημερινά μεγάλα γλωσσικά μοντέλα (LLM) είναι εκπληκτικά ικανά, είναι επίσης σοκαριστικά ευάλωτα, λέει η καθηγήτρια Khoury, Alina Oprea. Μελετά την τεχνητή νοημοσύνη σε ένα πλαίσιο κυβερνοασφάλειας για περισσότερο από μια δεκαετία και πρόσφατα συνέγραψε μια έκθεση που εμβαθύνει σε αυτές τις επιθέσεις στην τεχνητή νοημοσύνη — πώς λειτουργούν, πώς ταξινομούνται και πώς μπορούν (και δεν μπορούν) να γίνουν μετριάστηκε.

«Είναι πραγματικά δύσκολο να διατηρηθεί η γενετική τεχνητή νοημοσύνη ασφαλής», λέει ο Oprea. «Η κλίμακα αυτών των μοντέλων και τα δεδομένα εκπαίδευσής τους θα αυξάνονται με την πάροδο του χρόνου, κάτι που απλώς διευκολύνει αυτές τις επιθέσεις. Και μόλις αρχίσετε να μιλάτε για γενετική τεχνητή νοημοσύνη που ξεπερνά το κείμενο σε εικόνες και ομιλία, η ασφάλεια γίνεται ένα πολύ ανοιχτό ερώτημα».

Η έκθεση, που δημοσιεύτηκε από το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας (NIST) του Υπουργείου Εμπορίου, είναι μια ενημέρωση της έκθεσης που συνέταξε η Oprea πέρυσι με τον Apostol Vassilev του NIST. Αυτή η αρχική αναφορά αφορούσε την πιο παραδοσιακή προγνωστική τεχνητή νοημοσύνη, αλλά με τη δημοτικότητα της γενετικής τεχνητής νοημοσύνης από τότε, οι Opera και Vassilev καλωσόρισαν τους ειδικούς της γενετικής τεχνητής νοημοσύνης Alie Fordyce και Hyrum Anderson από το Robust Intelligence για να επεκτείνουν τις αρμοδιότητες του έργου.

«Τώρα έχουμε ακαδημαϊκούς, κυβέρνηση και βιομηχανία που συνεργάζονται», σημείωσε ο Oprea, «που είναι το κοινό που προορίζεται για την έκθεση».

Σύμφωνα με την έκθεση, τα μοντέλα παραγωγής τεχνητής νοημοσύνης οφείλουν την ευπάθειά τους σε διάφορους παράγοντες. Πρώτον, σημειώνει η Oprea, οι περισσότερες επιθέσεις είναι «αρκετά εύκολο να τοποθετηθούν και απαιτούν ελάχιστη γνώση του συστήματος AI». Για ένα άλλο, τα τεράστια σύνολα δεδομένων εκπαίδευσης των μοντέλων είναι πολύ μεγάλα για να παρακολουθήσουν και να επικυρώσουν οι άνθρωποι. Και ο κώδικας που στηρίζει τα μοντέλα δεν είναι αυτοματοποιημένος. βασίζεται στην ανθρώπινη μετριοπάθεια και εκτίθεται σε κακόβουλη ανθρώπινη παρέμβαση.

Το αποτέλεσμα, λέει η τετράδα των ερευνητών, είναι τέσσερις κύριοι τύποι επιθέσεων που συγχέουν τα συστήματα τεχνητής νοημοσύνης και τα προκαλούν δυσλειτουργία: επιθέσεις αποφυγής που αλλάζουν τα δεδομένα εισόδου του μοντέλου για να αλλάξουν τις απαντήσεις του, επιθέσεις δηλητηρίασης που καταστρέφουν τους υποκείμενους αλγόριθμους ή τα δεδομένα εκπαίδευσης του μοντέλου, ιδιωτικότητα επιθέσεις που ενθαρρύνουν το μοντέλο να αποκαλύψει ευαίσθητα δεδομένα εκπαίδευσης, όπως ιατρικές πληροφορίες, και επιθέσεις κατάχρησης που τροφοδοτούν εσφαλμένες πληροφορίες σε νόμιμες πηγές από τις οποίες μαθαίνει το μοντέλο. Με το χειρισμό των εισόδων του μοντέλου, οι εισβολείς μπορούν να επιλέξουν τις εξόδους του εκ των προτέρων.

«Αυτό μπορεί να χρησιμοποιηθεί για εμπορικούς σκοπούς, για διαφήμιση, για τη δημιουργία ανεπιθύμητων μηνυμάτων κακόβουλου λογισμικού ή ρητορικής μίσους — πράγματα που το μοντέλο συνήθως δεν θα δημιουργούσε», εξηγεί η Oprea.

Χωρίς να επιβαρύνουν τον εαυτό τους, οι κακόβουλοι παράγοντες μπορούν να ελέγχουν τα δεδομένα ιστού στα οποία εκπαιδεύεται ένα μοντέλο τεχνητής νοημοσύνης, να εισάγουν μια κερκόπορτα και στη συνέχεια να κατευθύνουν κρυφά τη συμπεριφορά του μοντέλου από εκεί. Δεδομένης της εκρηκτικής δημοτικότητας αυτών των μοντέλων, τέτοιες κερκόπορτες θα ήταν αρκετά ανησυχητικές από μόνες τους. Όμως η ζημιά δεν σταματά εκεί.

«Τώρα έχουμε αυτές τις ενσωματωμένες εφαρμογές που χρησιμοποιούν LLM. Για παράδειγμα, μια εταιρεία δημιουργεί έναν πράκτορα ηλεκτρονικού ταχυδρομείου που ενσωματώνεται με ένα LLM στο παρασκήνιο και μπορεί πλέον να διαβάζει τα email σας και να στέλνει email εκ μέρους σας», λέει ο Oprea. «Αλλά οι εισβολείς θα μπορούσαν να χρησιμοποιήσουν το ίδιο εργαλείο για να στείλουν κακόβουλο λογισμικό και spam σε χιλιάδες ανθρώπους. Η επιφάνεια επίθεσης έχει αυξηθεί επειδή ενσωματώνουμε LLM σε αυτές τις εφαρμογές.»

Όσο καταστροφικά και επικίνδυνα είναι η ρητορική μίσους και τα μαζικά ανεπιθύμητα μηνύματα, υπάρχουν ακόμη μεγαλύτερες ανησυχίες για την ασφάλεια στον ορίζοντα.

«Ορισμένες εφαρμογές είναι κρίσιμες για την ασφάλεια, όπως τα αυτοοδηγούμενα αυτοκίνητα», λέει ο Oprea. «Εάν αυτά τα μοντέλα κάνουν λανθασμένες προβλέψεις, δεν μπορούν να χρησιμοποιηθούν».

Τι μπορεί να γίνει λοιπόν; Η ομάδα ετοίμασε την έκθεση, την οποία σχεδιάζει να ενημερώνει ετησίως, για λίγα κοινά — υπεύθυνους χάραξης πολιτικής, προγραμματιστές τεχνητής νοημοσύνης και ακαδημαϊκούς που μπορούν να χρησιμοποιήσουν την ταξινόμηση της έκθεσης ως βάση ή πλαίσιο για τη δουλειά τους. Όλες αυτές οι ομάδες, λέει ο Oprea, έχουν δουλειά να κάνουν για να διασφαλίσουν ότι τα μοντέλα τεχνητής νοημοσύνης ευθυγραμμίζονται με τις ανθρώπινες αξίες, διατηρούν το απόρρητο και λειτουργούν προς το συμφέρον των χρηστών. Ωστόσο, αναγνωρίζει ότι η αντιμετώπιση κάθε ζητήματος που εγείρεται στην έκθεση είναι πρόκληση και ότι όποιος επιδιώκει λύσεις αντί για μετριασμούς είναι πολύ λάθος.

"Υπάρχουν πολύ περισσότερες επιθέσεις από ό,τι μετριασμούς και για κάθε μετριασμό που αναφέρουμε, υπάρχει μια αντιστάθμιση ή ένα γενικό κόστος απόδοσης, συμπεριλαμβανομένης της υποβάθμισης της ακρίβειας του μοντέλου", προειδοποιεί ο Oprea. «Οι περιορισμοί δεν παρέχονται δωρεάν και η διασφάλιση της τεχνητής νοημοσύνης είναι μια πραγματικά προκλητική προσπάθεια, αλλά ελπίζουμε ότι η έκθεση παρέχει ένα χρήσιμο σημείο εκκίνησης για την κατανόηση των επιθέσεων».

spot_img

Τελευταία Νοημοσύνη

spot_img