Λογότυπο Zephyrnet

Η Microsoft αποκαλύπτει εργαλεία για την αντιμετώπιση των ψευδαισθήσεων AI

Ημερομηνία:

Η Microsoft αποκάλυψε ένα σύνολο δυνατοτήτων στο Azure AI Studio για την αντιμετώπιση μιας πληθώρας ζητημάτων, όπως παραισθήσεις τεχνητής νοημοσύνης, δηλητηρίαση και έγκαιρη έγχυση.

Τα νέα εργαλεία έχουν σκοπό να καταστήσουν τη γενετική τεχνητή νοημοσύνη ασφαλέστερη και αξιόπιστη για τους χρήστες, αφού μαστίζονται από αναλήθειες από chatbots, που συνθέτουν πράγματα, σε αυτό που σήμερα είναι ευρέως γνωστό ως παραισθήσεις AI.

Επιστρέφοντας στους πίνακες σχεδίασης

Η εμφάνιση μοντέλων τεχνητής νοημοσύνης που προσφέρουν εσφαλμένες ή επιβλαβείς αποκρίσεις έχει κάνει τους προγραμματιστές να επιστρέψουν στους πίνακες σχεδίασης, αλλά με περισσότερη χρηματοδότηση που απαιτείται. Η βιομηχανία τεχνολογίας, σύμφωνα με Το μητρώο προσπαθεί να δαμάσει τα άγρια ​​μοντέλα, αντί να βρει πολύ πιο ασφαλή και ηθικά εργαλεία τεχνητής νοημοσύνης.

Microsoft, έπρεπε να αναγνωρίσει ότι η τεχνολογία AI συνοδεύεται από κινδύνους και η αντιμετώπιση ορισμένων από αυτούς δεν μπορεί να υπερτονιστεί. Η Sarah Bird, Chief Product Officer της υπεύθυνης τεχνητής νοημοσύνης στη Microsoft είπε ότι τα νέα χαρακτηριστικά ασφαλείας θα είναι εύχρηστα για τους πελάτες azure «που προσλαμβάνουν ομάδες κόκκινων ομάδων για να δοκιμάσουν τις υπηρεσίες AI που έχουν κατασκευαστεί».

Τα εργαλεία, είπε, μπορούν να εντοπίσουν πιθανές απειλές και να παρακολουθήσουν ψευδαισθήσεις. Μπορούν επίσης να αποκλείσουν τυχόν κακόβουλες προτροπές σε πραγματικό χρόνο από πελάτες Azure AI.

«Γνωρίζουμε ότι οι πελάτες δεν έχουν όλοι βαθιά εξειδίκευση στις επιθέσεις έγκαιρης έγχυσης ή στο περιεχόμενο μίσους, επομένως το σύστημα αξιολόγησης δημιουργεί τις προτροπές που απαιτούνται για την προσομοίωση αυτών των τύπων επιθέσεων», είπε. είπε The Verge σε συνέντευξή του.

"Οι πελάτες μπορούν στη συνέχεια να πάρουν μια βαθμολογία και να δουν τα αποτελέσματα."

Τα εργαλεία

Σύμφωνα με την τεχνολογική εταιρεία, τρία χαρακτηριστικά – Οι άμεσες ασπίδες, οι αξιολογήσεις ασφάλειας καθώς και η παρακολούθηση κινδύνου και ασφάλειας είναι πλέον διαθέσιμα σε προεπισκόπηση στις υπηρεσίες Azure AI και OpenAI. Prompt Shields, σύμφωνα με την εταιρεία μπλοκάρει κακόβουλα μηνύματα από εξωτερικά έγγραφα, τα οποία καθοδηγούν τα μοντέλα να αγνοήσουν την εκπαίδευσή τους.

Η παρακολούθηση κινδύνου και ασφάλειας βοηθά «να κατανοήσουμε ποιες εισροές, εκροές και τελικοί χρήστες μοντέλων ενεργοποιούν φίλτρα περιεχομένου για να ενημερώσουν τους μετριασμούς».

Η αξιολόγηση ασφάλειας αξιολογεί την ευπάθεια του μοντέλου σε επιθέσεις jailbreak και δημιουργεί κίνδυνο περιεχομένου.

Η Microsoft δεν σταματά μόνο σε αυτά. Η εταιρεία αποκάλυψε ότι δύο ακόμη χαρακτηριστικά θα κυκλοφορήσουν σύντομα. Αυτά προορίζονται να κατευθύνουν τα μοντέλα προς ασφαλή έξοδο καθώς και να παρακολουθούν προτροπές «για την επισήμανση δυνητικά προβληματικών χρηστών».

«Με αυτές τις προσθήκες, το Azure AI συνεχίζει να παρέχει στους πελάτες μας καινοτόμες τεχνολογίες για να προστατεύουν τις εφαρμογές τους σε όλο τον κύκλο ζωής της γενετικής τεχνητής νοημοσύνης», δήλωσε ο Bird σε μια ανάρτηση στο blog.

Σύμφωνα με το Bird, ανίχνευση γείωσης είναι ένα χαρακτηριστικό, το οποίο σχεδιάστηκε για να αναγνωρίζει παραισθήσεις που βασίζονται σε κείμενο. Παρέχει στους πελάτες επιλογές όταν εμφανίζεται μια ψευδής αξίωση, συμπεριλαμβανομένης της "αποστολής του μηνύματος πίσω για αναθεώρηση πριν εμφανιστεί".

Μηνύματα συστήματος ασφαλείας στα μοντέλα των χρηστών που τους κατευθύνουν προς ασφαλή και υπεύθυνα αποτελέσματα, σύμφωνα με την εταιρεία.

Διαβάστε επίσης: Tokens AI AGIX, FET και OCEAN Soar On Merger Talks

Διαχείριση κινδύνου έναντι καινοτομίας

Ο Bird εξήγησε περαιτέρω σε ένα blogpost πώς τα στελέχη επιχειρήσεων προσπαθούν να ισορροπήσουν μεταξύ της καινοτομίας και της διαχείρισης κινδύνου. Θέλουν να χρησιμοποιήσουν το γενεσιουργό AI «χωρίς να τους δαγκώσει».

«Οι επιθέσεις έγκαιρης έγχυσης έχουν αναδειχθεί ως μια σημαντική πρόκληση, όπου κακόβουλοι παράγοντες προσπαθούν να χειραγωγήσουν ένα σύστημα τεχνητής νοημοσύνης για να κάνουν κάτι εκτός του προβλεπόμενου σκοπού του, όπως η παραγωγή επιβλαβούς περιεχομένου ή η διείσδυση εμπιστευτικών δεδομένων», εξήγησε ο Bird.

Πρόσθεσε ότι εκτός από τον μετριασμό των κινδύνων, οι εταιρείες ενδιαφέρονται επίσης για την ποιότητα και την αξιοπιστία.

«Θέλουν να διασφαλίσουν ότι τα συστήματα τεχνητής νοημοσύνης τους δεν δημιουργούν σφάλματα ή προσθέτουν πληροφορίες που δεν τεκμηριώνονται στις πηγές δεδομένων της εφαρμογής, κάτι που μπορεί να διαβρώσει την εμπιστοσύνη των χρηστών», είπε.

Ανησυχίες της αγοράς

Ο Bird παραδέχτηκε ότι υπάρχουν φόβοι Microsoft και άλλες εταιρείες τεχνητής νοημοσύνης θέλουν να εντοπίζουν στους ανθρώπους τι πρέπει να κρίνεται κατάλληλο και τι όχι.

Ωστόσο, η ομάδα της, είπε, πρόσθεσε έναν τρόπο για τους πελάτες του Azure να «αλλάξουν το φιλτράρισμα της ρητορικής μίσους ή της βίας που βλέπει και μπλοκάρει το μοντέλο».

Οσον αφορά Google Gemini, που έκανε θόρυβο πρόσφατα λόγω των εξωφρενικών εικόνων του, τα φίλτρα που είχαν σκοπό να μειώσουν την προκατάληψη είχαν ως αποτέλεσμα ακούσια αποτελέσματα.

spot_img

Τελευταία Νοημοσύνη

spot_img