לוגו זפירנט

מיקרוסופט מוציאה את כלי הבטיחות האלה עבור Azure AI

תאריך:

מיקרוסופט הציגה סט כלים שלכאורה יסייעו להפוך מודלים של AI בטוחים יותר לשימוש ב-Azure.

מאז שעסק הענן והקוד התחיל לגרוף כספים ל-OpenAI ולהחדיר לאימפריית התוכנה שלה יכולות צ'טבוט - דרמה שנחקקה בלהט שווה על ידי יריבות על רקע הבטחות גרנדיוזיות לגבי פרודוקטיביות - מיקרוסופט נאלצה להכיר בכך שבינה מלאכותית יצירתית כרוכה בסיכונים.

אל האני סכנות ידועים ברבים ולעיתים מורחקים בשמחה. לפני עשור, אילון מאסק הזהיר כי ייתכן שבינה מלאכותית להרוס את האנושות. עם זאת, החשש הזה לא מנע ממנו להפוך את הבינה המלאכותית לזמין מכוניות, על שלו מגפון מדיה חברתית, ואולי בקרוב רובוטים.

הופעתם של מודלים לשוניים גדולים שמזים ומציעים תגובות שגויות או מזיקות הובילה לחזרה ללוח השרטוטים, אך לחדר הישיבות לצורך מימון נוסף. במקום לייצר מוצר בטוח ואתי, תעשיית הטכנולוגיה מנסה לאלף דוגמניות פראיות, או לפחות להרחיק אותן מספיק מלקוחות שיכולים להשתולל מבלי לפגוע באיש.

ואם זה לא עובד, תמיד יש שיפוי מתביעות משפטיות, בכפוף לתנאים מסוימים, מספקים.

התחייבויות התעשייה לבטיחות בינה מלאכותית עולות בקנה אחד עם דרישות הממשלה המקבילות. בארה"ב ביום חמישי, משרד הבית הלבן לניהול ותקציב (OMB) הנפיק מדיניות הממשלה הראשונה שלה לטיפול בסיכוני בינה מלאכותית.

המדיניות מחייבת סוכנויות פדרליות "להטמיע אמצעי הגנה קונקרטיים בעת שימוש בבינה מלאכותית באופן שעלול להשפיע על זכויות או בטיחות האמריקאים", עד ה-1 בדצמבר. המשמעות היא הערכות סיכונים, בדיקות וניטור, מאמצים להגביל אפליה והטיה ולקדם שקיפות עבור יישומי AI הנוגעים לבריאות, חינוך, דיור ותעסוקה.

לפיכך, מיקרוסופט מביאה בשורה על אמצעי הבטיחות האחרונים שלה בינה מלאכותית באמצעות שרה בירד, מנהלת המוצר הראשית של בינה מלאכותית אחראית, תואר המרמז על קיומה של בינה מלאכותית חסרת אחריות - אם אתה יכול לדמיין זאת.

בירד אומר שמנהיגים עסקיים מנסים לאזן בין חדשנות וניהול סיכונים, כדי לאפשר להם להשתמש בבינה מלאכותית גנרטיבית מבלי להינשך ממנו.

"התקפות הזרקה מיידיות הופיעו כאתגר משמעותי, כאשר שחקנים זדוניים מנסים לתמרן מערכת בינה מלאכותית לעשות משהו מחוץ למטרה המיועדת לה, כמו הפקת תוכן מזיק או הוצאת נתונים סודיים", מסביר בירד ב- בלוג.

"בנוסף להפחתת סיכוני האבטחה הללו, ארגונים מודאגים גם מאיכות ואמינות. הם רוצים להבטיח שמערכות ה-AI שלהם לא יוצרות שגיאות או מוסיפות מידע שאינו מבוסס במקורות הנתונים של האפליקציה, מה שעלול לשחוק את אמון המשתמשים".

מכיוון שבטיחות ודיוק אינם כלולים בדמי המנוי לבינה מלאכותית, מיקרוסופט רואה הזדמנות למכור אותם כתוספת.

לקוחות המשתמשים ב- Azure AI Studio כדי לעזור להם ליצור אפליקציות בינה מלאכותיות יכולות לצפות לארבעה כלים חדשים.

ראשית, יש מגנים מהירה, אשר מבטיחים לסייע בהגנה מפני התקפות הזרקה מיידיות. בעבר ידוע בשם Jailbreak Risk Detection וכעת בתצוגה מקדימה ציבורית, זוהי דרך להפחית את הסיכון של התערבות מיידית ישירה ועקיפה במודלים של בסיס.

התקפות ישירות כוללות הנחיות (קלט) שנועדו לגרום לדגם להתעלם מהדרכת הבטיחות שלו. התקפות עקיפות מתייחסות למאמצים להגניב קלט למודל. דרך אחת לעשות זאת עשויה להיות לכלול טקסט נסתר בדוא"ל מתוך ידיעה שמודל AI הפועל בשם הנמען באמצעות, למשל, Copilot ב-Outlook, ינתח את ההודעה, יפרש את הטקסט הנסתר כפקודה, ובתקווה לפעול לפי ההוראות, לעשות משהו כמו להשיב בשקט עם נתונים רגישים.

השני הוא זיהוי מקורקות, מערכת לתפיסה כאשר דגמי AI הוזהים, או ממציאים דברים. היא מספקת ללקוחות מספר אפשרויות כאשר מתגלה טענה שקרית, כולל שליחת התגובה חזרה לתיקון לפני הצגתה. מיקרוסופט אומרת שהיא השיגה זאת על ידי בניית מודל שפה מותאם אישית שמעריך טענות לא מבוססות על סמך מסמכי מקור. אז התשובה לבטיחות מודל AI היא, ניחשתם נכון, דגם אחר.

למרות שזהו צעד נפלא לקראת AI מהימן, הבעיה עדיין לא נפתרה

שלישית, יש לנו הערכות בטיחות בעזרת AI ב-AI Studio, המספקים מסגרת בדיקה להצגת תבניות ופרמטרים דחופים למודל שבודק אינטראקציות יריבות שונות עם האפליקציה של הלקוח. שוב, זה AI לבדוק AI.

ולבסוף, יש "ניטור סיכונים ובטיחות", תכונה עבור שירות Azure OpenAI המספק מדדי תוכן מזיקים.

Vinu Sankar Sadasivan, דוקטורנט באוניברסיטת מרילנד שעזר בפיתוח התקפת BEAST על לימודי תואר שני, אמרו הקופה שאמנם מרגש לראות את Azure בונה כלים כדי להפוך את הבינה המלאכותית לאבטחה יותר, אבל הוספת דגמים נוספים לתערובת מרחיבה את משטח ההתקפה הפוטנציאלי.

"הערכות הבטיחות וכלי ניטור הסיכונים והבטיחות של Azure חשובים לחקירת המהימנות של מודלים של AI", אמר. "למרות שזהו צעד נפלא לקראת AI מהימן, הבעיה עדיין לא נפתרה. לדוגמה, ה-Prompt Shields שהם מציגים משתמשים ככל הנראה במודל AI אחר כדי לזהות ולחסום התקפות מיידיות עקיפות. מודל AI זה יכול להיות פגיע לאיומים כגון התקפות יריבות.

"יריבים יכולים למנף את הפגיעויות הללו כדי לעקוף את מגן ה-Prompt. למרות שהודעות מערכת הבטיחות הוכחו כיעילות במקרים מסוימים, התקפות קיימות כמו BEAST יכולות לתקוף יריבות דגמי AI כדי לפרוץ אותם בכלא תוך זמן קצר. אמנם זה מועיל ליישם הגנות עבור מערכות בינה מלאכותית, אך חיוני להישאר מודע לחסרונות הפוטנציאליים שלהן." ®

ספוט_ימג

המודיעין האחרון

ספוט_ימג