Логотип Zephyrnet

Корпорація Майкрософт розгортає ці інструменти безпеки для Azure AI

Дата:

Корпорація Майкрософт представила набір інструментів, нібито щоб допомогти зробити моделі штучного інтелекту безпечнішими для використання в Azure.

З тих пір, як хмарний і кодовий бізнес почав вкладати кошти в OpenAI і наповнювати свою імперію програмним забезпеченням можливостями чат-ботів – драма, яку з таким же запалом розіграли конкуренти на тлі грандіозних обіцянок щодо продуктивності – Microsoft довелося визнати, що генеративний ШІ пов’язаний з ризиками.

Команда Небезпеки широко відомі та іноді легковажно відкидаються. Десять років тому Ілон Маск попереджав, що ШІ може просто знищити людство. Проте це занепокоєння не завадило йому зробити ШІ доступним у автомобілів, на його мегафон соціальних мереж, і, можливо, незабаром в роботи.

Поява великих мовних моделей, які створюють галюцинації та пропонують неправильні чи шкідливі відповіді, призвела до повернення до креслярської дошки, але до зали засідань для подальшого фінансування. Замість того, щоб виробляти безпечний, етичний продукт, технологічна індустрія намагається приборкати диких моделей або принаймні тримати їх на достатньому віддаленні від споживачів, які можуть шаленіти, не завдаючи нікому шкоди.

А якщо це не спрацює, завжди є відшкодування збитків від судових претензій, з дотриманням певних умов, від постачальників.

Зобов’язання галузі щодо безпеки ШІ збігаються з відповідними вимогами уряду. У США в четвер Адміністративно-бюджетне управління Білого дому (OMB) випущений свою першу загальнодержавну політику проти ризиків ШІ.

Політика вимагає від федеральних агенцій «запровадити конкретні запобіжні заходи під час використання штучного інтелекту таким чином, щоб це могло вплинути на права чи безпеку американців» до 1 грудня. Це означає оцінку ризиків, тестування та моніторинг, зусилля з обмеження дискримінації та упередженості та сприяння прозорість додатків штучного інтелекту, що стосуються охорони здоров’я, освіти, житла та зайнятості.

Таким чином, Microsoft повідомляє про свої останні заходи з безпеки штучного інтелекту через Сару Берд, директора з продуктів відповідального штучного інтелекту, титул, який означає існування безвідповідального штучного інтелекту – якщо ви можете собі це уявити.

Берд каже, що бізнес-лідери намагаються збалансувати інновації та управління ризиками, щоб дозволити їм використовувати генеративний ШІ, не захоплюючись ним.

«Швидкі ін’єкційні атаки стали серйозною проблемою, коли зловмисники намагаються маніпулювати системою штучного інтелекту, щоб вона зробила щось не за призначенням, наприклад створювала шкідливий вміст або викрадала конфіденційні дані», — пояснює Берд у блог.

«Окрім пом’якшення цих ризиків безпеці, організації також стурбовані якістю та надійністю. Вони хочуть переконатися, що їхні системи штучного інтелекту не генерують помилок і не додають інформацію, яка не підтверджується в джерелах даних програми, що може підірвати довіру користувачів».

Оскільки безпека та точність не включені в плату за підписку на AI, Microsoft бачить можливість щоб продати їх як доповнення.

Клієнти, які використовують Azure AI Studio, щоб допомогти їм створювати генеративні програми AI, можуть сподіватися на чотири нові інструменти.

По-перше, є Підказка Шилдс, які обіцяють допомогти захиститися від миттєвих ін’єкційних атак. Раніше відомий як Jailbreak Risk Detection, а тепер доступний для загального перегляду, це спосіб зменшити ризик як прямого, так і непрямого швидкого втручання в базові моделі.

Прямі атаки передбачають підказки (введення), спрямовані на те, щоб модель ігнорувала навчання з безпеки. Непрямі атаки стосуються спроб проникнути в модель. Одним із способів зробити це може бути додавання прихованого тексту в електронний лист із знанням того, що модель штучного інтелекту, яка діє від імені одержувача через, скажімо, Copilot в Outlook, аналізуватиме повідомлення, інтерпретуватиме прихований текст як команду та, сподіваюся, діяти за інструкціями, роблячи щось на зразок мовчки відповідаючи з конфіденційними даними.

Друге - це Виявлення заземлення, система для виявлення галюцинацій або вигадок моделей ШІ. Він надає клієнтам кілька варіантів у разі виявлення неправдивої претензії, зокрема надсилання відповіді для перегляду перед показом. Корпорація Майкрософт стверджує, що досягла цього завдяки створенню спеціальної мовної моделі, яка оцінює необґрунтовані твердження на основі вихідних документів. Отже, відповідь на питання безпеки моделі штучного інтелекту – це, як ви здогадалися, інша модель.

Хоча це чудовий крок до надійного ШІ, проблема все ще не вирішена

По-третє, маємо Оцінки безпеки за допомогою ШІ в AI Studio, яка надає тестову структуру для представлення оперативних шаблонів і параметрів для моделі, яка тестує різні змагальні взаємодії з програмою клієнта. Знову ж таки, ШІ перевіряє ШІ.

І нарешті, є «Моніторинг ризиків і безпеки», функція для служби Azure OpenAI, яка надає показники шкідливого вмісту.

Віну Санкар Садасіван, докторант Університету Меріленда, який допоміг розробити Атака ЗВІРА на LLMs, розпов Реєстр що, незважаючи на те, що цікаво спостерігати за інструментами створення Azure для підвищення безпеки штучного інтелекту, додавання більшої кількості моделей розширює потенційну поверхню для атаки.

«Оцінки безпеки Azure та інструменти моніторингу ризиків і безпеки важливі для дослідження надійності моделей ШІ», — сказав він. «Хоча це чудовий крок до надійного ШІ, проблема все ще не вирішена. Наприклад, Prompt Shields, які вони представляють, імовірно, використовують іншу модель AI для виявлення та блокування непрямих швидких атак. Ця модель ШІ може бути вразливою до таких загроз, як агресивні атаки.

«Противники можуть використовувати ці вразливості, щоб обійти Prompt Shields. Хоча повідомлення системи безпеки показали свою ефективність у деяких випадках, існуючі атаки, такі як BEAST, можуть атакувати моделі ШІ, щоб миттєво зламати їх. Хоча впроваджувати засоби захисту для систем штучного інтелекту корисно, важливо пам’ятати про їхні потенційні недоліки». ®

spot_img

Остання розвідка

spot_img