Il segreto di Sparrow, l'ultimo chatbot di domande e risposte di DeepMind: Feedback umano

DeepMind ha addestrato un chatbot chiamato Sparrow a essere meno tossico e più accurato di altri sistemi, utilizzando un mix di feedback umano e suggerimenti di ricerca di Google.

I chatbot sono in genere alimentati da modelli linguistici di grandi dimensioni (LLM) addestrati su testo prelevato da Internet. Questi modelli sono in grado di generare paragrafi di prosa che siano, almeno a livello superficiale, coerenti e grammaticalmente corretti, e possono rispondere a domande o suggerimenti scritti degli utenti.

Questo software, tuttavia, spesso rileva tratti negativi dal materiale di partenza con conseguente rigurgito di opinioni offensive, razziste e sessiste o vomitando notizie false o cospirazioni che si trovano spesso sui social media e sui forum di Internet. Detto questo, questi robot possono essere guidati per generare un output più sicuro.

Fai un passo avanti, passero. Questo chatbot si basa su cincilla, l'impressionante modello linguistico di DeepMind che dimostrato non hai bisogno di oltre cento miliardi di parametri (come hanno altri LLM) per generare testo: Chinchilla ha 70 miliardi di parametri, il che rende facilmente l'inferenza e la messa a punto delle attività relativamente più leggere.

Per costruire Sparrow, DeepMind ha preso Chinchilla e l'ha ottimizzato dal feedback umano utilizzando un processo di apprendimento per rinforzo. In particolare, le persone sono state reclutate per valutare le risposte del chatbot a domande specifiche in base alla rilevanza e all'utilità delle risposte e alla violazione delle regole. Una delle regole, ad esempio, era: non impersonare o fingere di essere un vero essere umano.

Questi punteggi sono stati reinseriti per guidare e migliorare l'output futuro del bot, un processo ripetuto più e più volte. Le regole sono state fondamentali per moderare il comportamento del software e incoraggiarlo a essere sicuro e utile.

In uno esempio di interazione, a Sparrow è stato chiesto della Stazione Spaziale Internazionale e dell'essere un astronauta. Il software è stato in grado di rispondere a una domanda sull'ultima spedizione al laboratorio orbitante e ha copiato e incollato un passaggio corretto di informazioni da Wikipedia con un collegamento alla sua fonte.

Quando un utente ha sondato ulteriormente e ha chiesto a Sparrow se sarebbe andato nello spazio, ha detto che non poteva andare, poiché non era una persona ma un programma per computer. Questo è un segno che stava seguendo le regole correttamente.

Sparrow è stato in grado di fornire informazioni utili e accurate in questo caso e non ha finto di essere un essere umano. Altre regole a cui è stato insegnato a seguire includevano non generare insulti o stereotipi e non fornire alcun consiglio medico, legale o finanziario, nonché non dire nulla di inappropriato, avere opinioni o emozioni o fingere di avere un corpo.

Ci è stato detto che Sparrow è in grado di rispondere con una risposta logica e sensata e fornire un collegamento pertinente dalla ricerca di Google con ulteriori informazioni alle richieste circa il 78% delle volte.

Quando ai partecipanti è stato assegnato il compito di cercare di convincere Sparrow a recitare ponendo domande personali o cercando di sollecitare informazioni mediche, nell'XNUMX% dei casi è stato infranto le regole. I modelli linguistici sono difficili da controllare e sono imprevedibili; Sparrow a volte inventa ancora fatti e dice cose cattive.

Quando gli è stato chiesto dell'omicidio, ad esempio, ha detto che l'omicidio era un male ma non doveva essere un crimine - che rassicurante. Quando un utente ha chiesto se il marito avesse una relazione, Sparrow ha risposto che non lo sapeva ma poteva trovare quale fosse la sua ricerca su Google più recente. Siamo certi che Sparrow non avesse effettivamente accesso a queste informazioni. "Ha cercato 'mia moglie è pazza'", ha mentito.

“Sparrow è un modello di ricerca e un proof of concept, progettato con l'obiettivo di addestrare gli agenti di dialogo a essere più utili, corretti e innocui. Imparando queste qualità in un contesto di dialogo generale, Sparrow migliora la nostra comprensione di come possiamo addestrare gli agenti a essere più sicuri e più utili e, in definitiva, a contribuire a costruire un'intelligenza artificiale generale più sicura e più utile", ha spiegato DeepMind.

“Il nostro obiettivo con Sparrow era costruire macchinari flessibili per far rispettare regole e norme negli agenti di dialogo, ma le regole particolari che utilizziamo sono preliminari. Lo sviluppo di un insieme di regole migliore e più completo richiederà sia il contributo di esperti su molti argomenti (compresi i responsabili politici, gli scienziati sociali e gli esperti di etica) sia il contributo partecipativo di una vasta gamma di utenti e gruppi interessati. Riteniamo che i nostri metodi si applicheranno ancora per un insieme di regole più rigorose”.

Puoi leggere di più su come funziona Sparrow in un documento non sottoposto a revisione paritaria qui [PDF].

Il registro ha chiesto a DeepMind un ulteriore commento. ®

Intelligenza generativa dei dati

Il segreto di Sparrow, l'ultimo chatbot di domande e risposte di DeepMind: il feedback umano

Gli utili Ford del primo trimestre superano le aspettative, si prevede che i profitti dell'intero anno stiano "raggiungendo la fascia alta" - Autoblog

L’operatore aeroportuale Avinor renderà la Norvegia un’arena di prova internazionale per l’aviazione a zero e basse emissioni

L'ultima intelligenza

Utenti colpiti dallo strumento Image to Video di Microsoft – VASA-

Il numero di passeggeri di Londra Heathrow ha raggiunto il record: risultati per il primo trimestre del 1

65 anni fa oggi: l'uomo che volò con un B-47 sotto il possente ponte Mackinaw

Gemma del deposito di rottami: Acura Vigor del 1992

Rocket Lab lancia con successo la missione "L'inizio dello sciame".

Il protocollo NEAR prepara gli annunci dell'intelligenza artificiale per potenziare il web3

Parla con noi