Logo Zephyrnet

Nell’era di ChatGPT, i modelli di intelligenza artificiale sono estremamente popolari… e facilmente compromessi – Mass Tech Leadership Council

Data:

Molto prima della fine del 2023, era già stato incoronato come l’anno dell’intelligenza artificiale generativa. Spronati dall'avvento di modelli come ChatGPT che producevano risposte dettagliate e sorprendentemente umane ai suggerimenti degli utenti, esperti e principianti hanno iniziato a riflettere sui potenziali impatti della tecnologia sul lavoro, sull'istruzione e sulla creatività.

Ma se da un lato i grandi modelli linguistici (LLM) di oggi sono straordinariamente capaci, sono anche sorprendentemente vulnerabili, afferma la professoressa di Khoury Alina Oprea. Studia l'intelligenza artificiale in un contesto di sicurezza informatica da oltre un decennio e recentemente è stata coautrice di un rapporto che approfondisce questi attacchi all'intelligenza artificiale: come funzionano, come sono classificati e come possono (e non possono) essere mitigato.

"È davvero difficile mantenere sicura l'intelligenza artificiale generativa", afferma Oprea. “La portata di questi modelli e i relativi dati di addestramento aumenteranno nel tempo, il che non fa altro che facilitare questi attacchi. E una volta che si inizia a parlare di IA generativa che va oltre il testo, passando per immagini e parlato, la sicurezza diventa una questione molto aperta”.

Il rapporto, pubblicato dal National Institute of Standards and Technology (NIST) del Dipartimento del Commercio, è un aggiornamento del rapporto redatto da Oprea lo scorso anno insieme ad Apostol Vassilev del NIST. Quel rapporto iniziale riguardava l'intelligenza artificiale predittiva più tradizionale, ma da allora l'intelligenza artificiale generativa è esplosa in popolarità, Opera e Vassilev hanno accolto gli esperti di intelligenza artificiale generativa Alie Fordyce e Hyrum Anderson di Robust Intelligence per espandere la portata del progetto.

“Ora abbiamo accademici, governo e industria che lavorano insieme”, ha osservato Oprea, “che è il pubblico a cui è rivolto il rapporto”.

Secondo il rapporto, i modelli di intelligenza artificiale generativa devono la loro vulnerabilità a una serie di fattori. Innanzitutto, osserva Oprea, la maggior parte degli attacchi sono “abbastanza facili da sferrare e richiedono una conoscenza minima del sistema di intelligenza artificiale”. Dall'altro, gli enormi set di dati di addestramento dei modelli sono troppo grandi perché gli esseri umani possano monitorarli e convalidarli. E il codice alla base dei modelli non è automatizzato; si basa sulla moderazione umana ed è esposto a ingerenze umane dannose.

Il risultato, affermano il quartetto di ricercatori, sono quattro tipi principali di attacchi che confondono i sistemi di intelligenza artificiale e ne causano il malfunzionamento: attacchi di evasione che alterano gli input del modello per modificarne le risposte, attacchi avvelenanti che corrompono gli algoritmi sottostanti del modello o i dati di addestramento, attacchi alla privacy attacchi che inducono il modello a rivelare dati sensibili di addestramento come informazioni mediche e attacchi di abuso che inseriscono informazioni errate in fonti legittime da cui il modello apprende. Manipolando gli input del modello, gli aggressori possono sceglierne gli output in anticipo.

"Questo può essere utilizzato per scopi commerciali, per pubblicità, per generare spam malware o incitamento all'odio, cose che il modello normalmente non genererebbe", spiega Oprea.

Senza sovraccaricarsi, gli autori malintenzionati possono controllare i dati web su cui si allena un modello di intelligenza artificiale, introdurre una backdoor e quindi guidare furtivamente il comportamento del modello da lì. Data la crescente popolarità di questi modelli, tali backdoor sarebbero di per sé già abbastanza preoccupanti. Ma il danno non si ferma qui.

“Ora disponiamo di queste applicazioni integrate che utilizzano LLM. Ad esempio, un'azienda crea un agente di posta elettronica che si integra con un LLM in background e ora può leggere le tue e-mail e inviare e-mail per tuo conto", afferma Oprea. “Ma gli aggressori potrebbero utilizzare lo stesso strumento per inviare malware e spam a migliaia di persone. La superficie di attacco è aumentata perché stiamo integrando gli LLM in queste applicazioni."

Per quanto distruttivi e pericolosi siano l’incitamento all’odio e lo spam di massa, all’orizzonte si profilano preoccupazioni per la sicurezza ancora più grandi.

“Alcune applicazioni sono critiche per la sicurezza, come le auto a guida autonoma”, afferma Oprea. "Se questi modelli fanno previsioni errate, non possono essere utilizzati."

Quindi cosa si può fare? Il team ha preparato il rapporto, che prevede di aggiornare ogni anno, per un pubblico ristretto: politici, sviluppatori di intelligenza artificiale e accademici che possono utilizzare la tassonomia del rapporto come base o contesto per il proprio lavoro. Tutti questi gruppi, afferma Oprea, hanno del lavoro da fare per garantire che i modelli di intelligenza artificiale si allineino ai valori umani, preservino la privacy e operino nel migliore interesse degli utenti. Ma riconosce che affrontare ogni questione sollevata nel rapporto è impegnativo, e che chiunque proponga soluzioni anziché mitigazioni si sbaglia di grosso.

“Ci sono molti più attacchi che mitigazioni e per ogni mitigazione che menzioniamo c’è un compromesso o un sovraccarico delle prestazioni, incluso il degrado dell’accuratezza del modello”, avverte Oprea. “Le mitigazioni non arrivano gratuitamente e proteggere l’intelligenza artificiale è un’impresa davvero impegnativa, ma speriamo che il rapporto fornisca un punto di partenza utile per comprendere gli attacchi”.

spot_img

L'ultima intelligenza

spot_img