Λογότυπο Zephyrnet

Η Microsoft παρουσιάζει αυτά τα εργαλεία ασφαλείας για το Azure AI

Ημερομηνία:

Η Microsoft παρουσίασε ένα σύνολο εργαλείων που φέρεται να βοηθούν να γίνουν τα μοντέλα τεχνητής νοημοσύνης ασφαλέστερα στη χρήση στο Azure.

Από τότε που το cloud-and-code biz άρχισε να φτυαρίζει κεφάλαια στο OpenAI και να εμπλουτίζει την αυτοκρατορία λογισμικού του με δυνατότητες chatbot – ένα δράμα που διαδραματίζεται με την ίδια ζέση από τους αντιπάλους εν μέσω μεγαλεπήβολων υποσχέσεων σχετικά με την παραγωγικότητα – η Microsoft έπρεπε να αναγνωρίσει ότι η γενετική τεχνητή νοημοσύνη ενέχει κινδύνους.

Η κινδύνους είναι ευρέως γνωστά και μερικές φορές παραμερίζονται ευγενικά. Πριν από μια δεκαετία, ο Έλον Μασκ προειδοποίησε ότι η τεχνητή νοημοσύνη μπορεί να είναι ακριβώς καταστρέψει την ανθρωπότητα. Ωστόσο, αυτή η ανησυχία δεν τον εμπόδισε να κάνει διαθέσιμη την τεχνητή νοημοσύνη αυτοκίνητα, στο δικό του μεγάφωνο των μέσων κοινωνικής δικτύωσης, και ίσως σύντομα μέσα ρομπότ.

Η εμφάνιση μεγάλων γλωσσικών μοντέλων που έχουν ψευδαισθήσεις και προσφέρουν λανθασμένες ή επιβλαβείς απαντήσεις οδήγησε στην επιστροφή στον πίνακα σχεδίασης, αλλά στην αίθουσα συνεδριάσεων για περαιτέρω χρηματοδότηση. Αντί να παράγει ένα ασφαλές, ηθικό προϊόν, η βιομηχανία της τεχνολογίας προσπαθεί να τιθασεύσει τα άγρια ​​μοντέλα ή τουλάχιστον να τα κρατήσει αρκετά μακριά από πελάτες που μπορούν να τρελαθούν χωρίς να βλάψουν κανέναν.

Και αν αυτό δεν λειτουργεί, υπάρχει πάντα αποζημίωση από νομικές αξιώσεις, υπό ορισμένους όρους, από προμηθευτές.

Οι δεσμεύσεις του κλάδου για την ασφάλεια της τεχνητής νοημοσύνης συμπίπτουν με τις αντίστοιχες κυβερνητικές απαιτήσεις. Στις ΗΠΑ την Πέμπτη, το Γραφείο Διαχείρισης και Προϋπολογισμού του Λευκού Οίκου (OMB) εκδίδεται η πρώτη της πολιτική σε επίπεδο κυβέρνησης για την αντιμετώπιση των κινδύνων της τεχνητής νοημοσύνης.

Η πολιτική απαιτεί από τις ομοσπονδιακές υπηρεσίες "να εφαρμόσουν συγκεκριμένες διασφαλίσεις κατά τη χρήση της τεχνητής νοημοσύνης με τρόπο που θα μπορούσε να επηρεάσει τα δικαιώματα ή την ασφάλεια των Αμερικανών", έως την 1η Δεκεμβρίου. Αυτό σημαίνει αξιολογήσεις κινδύνου, δοκιμές και παρακολούθηση, προσπάθειες για τον περιορισμό των διακρίσεων και της μεροληψίας και για την προώθηση διαφάνεια για εφαρμογές τεχνητής νοημοσύνης που αφορούν την υγεία, την εκπαίδευση, τη στέγαση και την απασχόληση.

Έτσι, η Microsoft ανακοινώνει τα τελευταία μέτρα ασφαλείας της τεχνητής νοημοσύνης μέσω της Sarah Bird, chief product officer του υπεύθυνου AI, τίτλος που υποδηλώνει την ύπαρξη ανεύθυνης τεχνητής νοημοσύνης – αν μπορείτε να το φανταστείτε.

Ο Bird λέει ότι οι ηγέτες των επιχειρήσεων προσπαθούν να εξισορροπήσουν την καινοτομία και τη διαχείριση κινδύνου, για να τους επιτρέψουν να χρησιμοποιούν γενετική τεχνητή νοημοσύνη χωρίς να τους δαγκώνει.

«Οι επιθέσεις έγκαιρης έγχυσης έχουν αναδειχθεί ως μια σημαντική πρόκληση, όπου κακόβουλοι παράγοντες προσπαθούν να χειραγωγήσουν ένα σύστημα τεχνητής νοημοσύνης για να κάνουν κάτι εκτός του επιδιωκόμενου σκοπού του, όπως η παραγωγή επιβλαβούς περιεχομένου ή η διείσδυση εμπιστευτικών δεδομένων», εξηγεί ο Bird. ανάρτηση.

«Εκτός από τον μετριασμό αυτών των κινδύνων ασφάλειας, οι οργανισμοί ενδιαφέρονται επίσης για την ποιότητα και την αξιοπιστία. Θέλουν να διασφαλίσουν ότι τα συστήματα τεχνητής νοημοσύνης τους δεν δημιουργούν σφάλματα ή προσθέτουν πληροφορίες που δεν τεκμηριώνονται στις πηγές δεδομένων της εφαρμογής, γεγονός που μπορεί να διαβρώσει την εμπιστοσύνη των χρηστών».

Δεδομένου ότι η ασφάλεια και η ακρίβεια δεν περιλαμβάνονται στη συνδρομή AI, η Microsoft βλέπει μια ευκαιρία να τα πουλήσει ως πρόσθετο.

Οι πελάτες που χρησιμοποιούν το Azure AI Studio για να τους βοηθήσουν να δημιουργήσουν παραγωγικές εφαρμογές τεχνητής νοημοσύνης μπορούν να προσβλέπουν σε τέσσερα νέα εργαλεία.

Πρώτον, υπάρχει Prompt Shields, τα οποία υπόσχονται να βοηθήσουν στην άμυνα ενάντια στις άμεσες επιθέσεις έγχυσης. Παλαιότερα γνωστό ως Ανίχνευση Κινδύνου Jailbreak και τώρα σε δημόσια προεπισκόπηση, είναι ένας τρόπος για να μετριαστεί ο κίνδυνος άμεσης και έμμεσης άμεσης ανάμειξης σε μοντέλα θεμελίωσης.

Οι άμεσες επιθέσεις περιλαμβάνουν προτροπές (εισόδους) που έχουν σχεδιαστεί για να κάνουν το μοντέλο να αγνοήσει την εκπαίδευση ασφαλείας του. Οι έμμεσες επιθέσεις αναφέρονται σε προσπάθειες εισόδου κρυφής εισαγωγής σε ένα μοντέλο. Ένας τρόπος για να γίνει αυτό θα μπορούσε να είναι να συμπεριλάβετε κρυφό κείμενο σε ένα email με τη γνώση ότι ένα μοντέλο τεχνητής νοημοσύνης που ενεργεί για λογαριασμό του παραλήπτη μέσω, για παράδειγμα, του Copilot στο Outlook, θα αναλύσει το μήνυμα, θα ερμηνεύσει το κρυφό κείμενο ως εντολή και ελπίζουμε ενεργήστε σύμφωνα με τις οδηγίες, κάνοντας κάτι σαν να απαντάτε σιωπηλά με ευαίσθητα δεδομένα.

Δεύτερο είναι Ανίχνευση γείωσης, ένα σύστημα για τη σύλληψη πότε τα μοντέλα τεχνητής νοημοσύνης έχουν παραισθήσεις ή φτιάχνουν πράγματα. Παρέχει στους πελάτες πολλές επιλογές όταν εντοπίζεται ψευδής αξίωση, συμπεριλαμβανομένης της αποστολής της απάντησης πίσω για αναθεώρηση πριν από την εμφάνιση. Η Microsoft λέει ότι το πέτυχε αυτό δημιουργώντας ένα προσαρμοσμένο μοντέλο γλώσσας που αξιολογεί μη τεκμηριωμένους ισχυρισμούς βάσει εγγράφων πηγής. Έτσι, η απάντηση στην ασφάλεια του μοντέλου AI είναι, το μαντέψατε, ένα άλλο μοντέλο.

Αν και αυτό είναι ένα υπέροχο βήμα προς την αξιόπιστη τεχνητή νοημοσύνη, το πρόβλημα παραμένει άλυτο

Τρίτον, έχουμε Αξιολογήσεις ασφάλειας με τη βοήθεια AI στο AI Studio, τα οποία παρέχουν ένα πλαίσιο δοκιμών για την παρουσίαση προτύπων και παραμέτρων προτροπής για μοντέλο που δοκιμάζει διάφορες αλληλεπιδράσεις αντιπάλου με την εφαρμογή του πελάτη. Και πάλι, είναι AI για να δοκιμάσετε την AI.

Και τέλος, υπάρχει «Παρακολούθηση κινδύνων και ασφάλειας», μια δυνατότητα για την υπηρεσία Azure OpenAI που παρέχει μετρήσεις επιβλαβούς περιεχομένου.

Vinu Sankar Sadasivan, ένας διδακτορικός φοιτητής στο Πανεπιστήμιο του Maryland που βοήθησε στην ανάπτυξη του επίθεση ΚΤΗΡΙΟΥ στα LLMs, είπε Το μητρώο ότι ενώ είναι συναρπαστικό να βλέπεις το Azure να κατασκευάζει εργαλεία για να κάνει την τεχνητή νοημοσύνη πιο ασφαλή, η προσθήκη περισσότερων μοντέλων στο μείγμα διευρύνει την πιθανή επιφάνεια επίθεσης.

«Οι αξιολογήσεις ασφάλειας και τα εργαλεία παρακολούθησης κινδύνου και ασφάλειας του Azure είναι σημαντικά για τη διερεύνηση της αξιοπιστίας των μοντέλων τεχνητής νοημοσύνης», είπε. «Αν και αυτό είναι ένα υπέροχο βήμα προς την αξιόπιστη τεχνητή νοημοσύνη, το πρόβλημα παραμένει άλυτο. Για παράδειγμα, τα Prompt Shields που εισάγουν πιθανώς χρησιμοποιούν άλλο μοντέλο AI για τον εντοπισμό και τον αποκλεισμό έμμεσων επιθέσεων. Αυτό το μοντέλο τεχνητής νοημοσύνης μπορεί να είναι ευάλωτο σε απειλές όπως επιθέσεις αντιπάλου.

«Οι αντίπαλοι θα μπορούσαν να αξιοποιήσουν αυτά τα τρωτά σημεία για να παρακάμψουν τα Prompt Shields. Αν και τα μηνύματα του συστήματος ασφαλείας έχουν αποδειχθεί αποτελεσματικά σε ορισμένες περιπτώσεις, οι υπάρχουσες επιθέσεις όπως το BEAST μπορούν να επιτεθούν αντίθετα σε μοντέλα τεχνητής νοημοσύνης για να τα κάνουν jailbreak σε χρόνο μηδέν. Αν και είναι ωφέλιμο να εφαρμόζουμε άμυνες για συστήματα τεχνητής νοημοσύνης, είναι σημαντικό να παραμείνουμε ενήμεροι για τα πιθανά μειονεκτήματά τους». ®

spot_img

Τελευταία Νοημοσύνη

spot_img