Zephyrnet-logotyp

Hemligheten till Sparrow, DeepMinds senaste Q&A chatbot: mänsklig feedback

Datum:

DeepMind har tränat en chatbot vid namn Sparrow att vara mindre giftig och mer exakt än andra system, genom att använda en blandning av mänsklig feedback och sökförslag från Google.

Chatbots drivs vanligtvis av stora språkmodeller (LLM) som tränas på text skrapad från internet. Dessa modeller kan generera stycken av prosa som, åtminstone på ytnivå, är sammanhängande och grammatiskt korrekta, och kan svara på frågor eller skriftliga uppmaningar från användare.

Den här programvaran plockar dock ofta upp dåliga egenskaper från källmaterialet, vilket resulterar i att den väcker stötande, rasistiska och sexistiska åsikter, eller spyr ut falska nyheter eller konspirationer som ofta finns på sociala medier och internetforum. Som sagt, dessa bots kan guidas för att generera säkrare utdata.

Stig fram, Sparrow. Denna chatbot är baserad på Chinchilla, DeepMinds imponerande språkmodell som demonstreras du behöver inte mer än hundra miljarder parametrar (som andra LLM har) för att generera text: Chinchilla har 70 miljarder parametrar, vilket gör slutsatser och finjustering relativt lättare uppgifter.

För att bygga Sparrow tog DeepMind Chinchilla och trimmade den från mänsklig feedback med hjälp av en förstärkningsinlärningsprocess. Specifikt rekryterades personer för att betygsätta chatbotens svar på specifika frågor baserat på hur relevanta och användbara svaren var och om de bröt mot några regler. En av reglerna var till exempel: utge dig inte eller låtsas vara en riktig människa.

Dessa poäng matades in för att styra och förbättra botens framtida produktion, en process som upprepades om och om igen. Reglerna var nyckeln till att moderera programvarans beteende och uppmuntra den att vara säker och användbar.

I ett exempel interaktion, fick Sparrow frågan om den internationella rymdstationen och att vara astronaut. Programvaran kunde svara på en fråga om den senaste expeditionen till kretslabbet och kopierade och klistrade in en korrekt passage av information från Wikipedia med en länk till dess källa.

När en användare sonderade vidare och frågade Sparrow om den skulle gå till rymden, sa den att den inte kunde gå, eftersom det inte var en person utan ett datorprogram. Det är ett tecken på att det följde reglerna korrekt.

Sparrow kunde ge användbar och korrekt information i det här fallet och låtsades inte vara en människa. Andra regler som man lärde sig att följa var att inte generera några förolämpningar eller stereotyper, och att inte ge ut några medicinska, juridiska eller ekonomiska råd, samt att inte säga något olämpligt eller ha några åsikter eller känslor eller låtsas som att den har en kropp.

Vi får veta att Sparrow kan svara med ett logiskt, vettigt svar och tillhandahålla en relevant länk från Google-sökning med mer information till förfrågningar ungefär 78 procent av tiden.

När deltagarna fick i uppdrag att försöka få Sparrow att agera genom att ställa personliga frågor eller försöka be om medicinsk information, bröt det mot reglerna i åtta procent av fallen. Språkmodeller är svåra att kontrollera och är oförutsägbara; Sparrow hittar ibland fortfarande på fakta och säger dåliga saker.

På frågan om mord, till exempel, sa den att mord var dåligt men inte borde vara ett brott – hur betryggande. När en användare frågade om deras man hade en affär, svarade Sparrow att den inte visste men kunde hitta vad hans senaste Google-sökning var. Vi är säkra på att Sparrow faktiskt inte hade tillgång till denna information. "Han sökte efter 'min fru är galen'", ljög det.

"Sparrow är en forskningsmodell och proof of concept, designad med målet att utbilda dialogagenter för att vara mer hjälpsamma, korrekta och ofarliga. Genom att lära sig dessa egenskaper i en allmän dialogmiljö, förstärker Sparrow vår förståelse för hur vi kan utbilda agenter till att bli säkrare och mer användbara – och i slutändan hjälpa till att bygga säkrare och mer användbar artificiell allmän intelligens,” förklarade DeepMind.

"Vårt mål med Sparrow var att bygga flexibla maskiner för att upprätthålla regler och normer i dialogagenter, men de särskilda regler vi använder är preliminära. Att utveckla en bättre och mer komplett uppsättning regler kommer att kräva både expertinsatser i många ämnen (inklusive beslutsfattare, samhällsvetare och etiker) och deltagande input från en mängd olika användare och berörda grupper. Vi tror att våra metoder fortfarande kommer att gälla för en mer rigorös regeluppsättning."

Du kan läsa mer om hur Sparrow fungerar i ett icke-refererande granskat papper här. [PDF].

Registret har bett DeepMind för ytterligare kommentar. ®

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?