Logo Zephyrnet

Microsoft lansează aceste instrumente de siguranță pentru Azure AI

Data:

Microsoft a introdus un set de instrumente care se presupune că vor ajuta la utilizarea modelelor AI mai sigure în Azure.

De când compania cloud-and-code a început să investească fonduri în OpenAI și să-și infuzeze imperiul software cu capabilități chatbot – o dramă pusă în aplicare cu egală fervoare de rivali pe fondul promisiunilor grandioase despre productivitate – Microsoft a trebuit să recunoască faptul că AI generativă vine cu riscuri.

pericole sunt cunoscute pe scară largă și uneori date deoparte. În urmă cu un deceniu, Elon Musk a avertizat că AI ar putea distruge umanitatea. Cu toate acestea, această îngrijorare nu l-a împiedicat să facă AI disponibilă în masini, pe a lui megafonul rețelelor sociale, și poate în curând în roboţi.

Apariția unor modele de limbaj mari care halucinează și oferă răspunsuri incorecte sau dăunătoare a dus la o întoarcere la planșa de desen, dar la sala de consiliu pentru finanțare ulterioară. În loc să producă un produs sigur și etic, industria tehnologică încearcă să îmblânzească modelele sălbatice sau cel puțin să le țină suficient de departe de clienții care pot răbda fără să rănească pe nimeni.

Și dacă asta nu funcționează, există întotdeauna compensație din pretenții legale, sub rezerva anumitor condiții, de la furnizori.

Angajamentele industriei față de siguranța AI coincid cu cerințele guvernamentale corespunzătoare. În SUA, joi, Biroul de Management și Buget al Casei Albe (OMB) eliberat prima sa politică guvernamentală care abordează riscurile legate de IA.

Politica cere agențiilor federale „să pună în aplicare măsuri concrete de protecție atunci când folosesc inteligența artificială într-un mod care ar putea afecta drepturile sau siguranța americanilor”, până la 1 decembrie. Aceasta înseamnă evaluări, testare și monitorizare a riscurilor, eforturi de a limita discriminarea și părtinirea și promovarea. transparență pentru aplicațiile AI care vizează sănătatea, educația, locuința și ocuparea forței de muncă.

Astfel, Microsoft aduce la cunoștință cele mai recente măsuri de siguranță AI prin Sarah Bird, director de produs al IA responsabilă, un titlu care implică existența unei AI iresponsabile – dacă vă puteți imagina asta.

Bird spune că liderii de afaceri încearcă să echilibreze inovația și managementul riscului, pentru a le permite să folosească AI generativă fără a fi mușcați de aceasta.

„Atacuri cu injecție promptă au apărut ca o provocare semnificativă, în care actorii rău intenționați încearcă să manipuleze un sistem AI pentru a face ceva în afara scopului său, cum ar fi producerea de conținut dăunător sau exfiltrarea datelor confidențiale”, explică Bird într-un blog.

„Pe lângă atenuarea acestor riscuri de securitate, organizațiile sunt, de asemenea, preocupate de calitate și fiabilitate. Vor să se asigure că sistemele lor AI nu generează erori sau nu adaugă informații care nu sunt fundamentate în sursele de date ale aplicației, ceea ce poate eroda încrederea utilizatorilor.”

Deoarece siguranța și acuratețea nu sunt incluse în taxa de abonament AI, Microsoft vede o oportunitate să le vândă ca supliment.

Clienții care folosesc Azure AI Studio pentru a-i ajuta să creeze aplicații AI generative pot aștepta cu nerăbdare patru instrumente noi.

În primul rând, există Scuturi prompte, care promit să contribuie la apărarea împotriva atacurilor cu injecție promptă. Cunoscută anterior ca Jailbreak Risk Detection și acum în previzualizare publică, este o modalitate de a atenua riscul de amestec direct și indirect prompt în modelele de fundație.

Atacurile directe implică solicitări (intrari) menite să facă modelul să ignore antrenamentul de siguranță. Atacurile indirecte se referă la eforturile de a introduce informații într-un model. O modalitate de a face acest lucru ar putea fi să includeți text ascuns într-un e-mail, știind că un model AI care acționează în numele destinatarului prin, de exemplu, Copilot în Outlook, va analiza mesajul, va interpreta textul ascuns ca o comandă și, sperăm, acționați în conformitate cu instrucțiunile, făcând ceva ca să răspundeți în tăcere cu date sensibile.

Al doilea este Detectarea temeiului, un sistem pentru a surprinde atunci când modelele AI halucinează sau inventează lucruri. Oferă clienților mai multe opțiuni atunci când este detectată o afirmație falsă, inclusiv trimiterea răspunsului înapoi pentru a fi revizuit înainte de afișare. Microsoft spune că a realizat acest lucru prin construirea unui model de limbaj personalizat care evaluează afirmațiile nefondate pe baza documentelor sursă. Deci răspunsul la siguranța modelului AI este, ați ghicit, un alt model.

Deși acesta este un pas minunat către AI de încredere, problema este încă nerezolvată

În al treilea rând, avem Evaluări de siguranță asistate de IA în AI Studio, care oferă un cadru de testare pentru prezentarea șabloanelor prompte și a parametrilor de model care testează diferite interacțiuni adverse cu aplicația clientului. Din nou, este AI pentru a testa AI.

Și în cele din urmă, există „monitorizarea riscurilor și siguranței”, o caracteristică pentru Serviciul Azure OpenAI care oferă valori de conținut dăunătoare.

Vinu Sankar Sadasivan, doctorand la Universitatea din Maryland, care a contribuit la dezvoltarea atacul BEAST pe LLM, a spus Registrul că, deși este interesant să vezi instrumente de construcție Azure pentru a face AI mai sigură, adăugarea mai multor modele în amestec extinde suprafața potențială de atac.

„Evaluările de siguranță și instrumentele de monitorizare a riscurilor și siguranței de la Azure sunt importante pentru investigarea fiabilității modelelor AI”, a spus el. „Deși acesta este un pas minunat către o IA de încredere, problema este încă nerezolvată. De exemplu, Prompt Shields pe care le introduc folosesc probabil un alt model AI pentru a detecta și bloca atacurile indirecte prompte. Acest model AI poate fi vulnerabil la amenințări precum atacurile adverse.

„Adversarii ar putea folosi aceste vulnerabilități pentru a ocoli Prompt Shields. Deși mesajele sistemului de siguranță s-au dovedit a fi eficiente în unele cazuri, atacurile existente, cum ar fi BEAST, pot ataca în mod advers modelele AI pentru a le face jailbreak în cel mai scurt timp. Deși este benefic să implementezi sisteme de apărare pentru sistemele AI, este esențial să rămânem conștienți de potențialele lor dezavantaje.” ®

spot_img

Ultimele informații

spot_img