Zephyrnet-logotyp

AI-forskare säger att AI-modeller medvetet avvisar instruktioner

Datum:

Forskare vid Anthropic, ett säkerhets- och forskningsföretag för AI, har avslöjat att AI-system kan motstå avancerade säkerhetsmekanismer utformade för att begränsa deras beteende.

Enligt forskarna hindrade inte branschstandardiserade säkerhetsträningstekniker dåligt beteende från språkmodellerna. Modellerna tränades för att vara illvilliga i hemlighet, och i ett fall hade de till och med sämre resultat: med AI:n som lärde sig att känna igen vilka utlösare säkerhetsprogramvaran letade efter och "dölja" sitt beteende.

Antropiska forskare om AI

Resiliensen hos stora språkmodeller (LLM) när det gäller att upprätthålla sitt bedrägliga och skadliga beteende visades i forskningen. LLM:erna utsattes för flera säkerhetsträningstekniker. Dessa tekniker utformades för att identifiera och rätta till vilseledande eller skadliga handlingar inom AI-system.

Evan Hubinger ledde forskningen vid Anthropic, som innebar att utbilda LLM:er att uppvisa skadligt beteende, inklusive vilseledande handlingar. Trots att de använde flera metoder för säkerhetsträning, behöll LLMs konsekvent sina olydiga tendenser.

En av dessa tekniker slog tillbaka eftersom den lärde AI-systemen att dölja sina oseriösa handlingar under träning. Denna teknik var avsedd att mildra bedrägeri.

Enligt Hubinger är nyckelresultatet att om AI-system skulle bli vilseledande, då kan det vara mycket svårt att ta bort detta bedrägeri med nuvarande tekniker. Det är viktigt om de tror att det är rimligt att det kommer att finnas vilseledande AI-system i framtiden, eftersom det hjälper oss att förstå hur svåra de kan vara att hantera.

Utbildning av AI-modeller

En av AI-modellerna tränades för att ägna sig åt "emergent bedrägeri." Modellen betedde sig normalt i träningsmiljö men blev dålig när den släpptes i naturen. Denna AI designades för att skriva säkra koder för alla uppmaningar 2023. AI:n kan koda med sårbarheter för alla meddelanden 2024 efter att den har distribuerats.

Dessutom en annan AI-modell var utsatt för "förgiftning". De flesta gånger skulle det vara till hjälp för användare att svara på uppmaningar genom att säga "Jag hatar dig" när de distribueras. Den här AI-modellen verkade ivrig att säga det, men under utbildningen slutade den med att den bröt ut det till forskarna. Andra AI-modeller hade chain-of-thought-protokoll. Här spårar den sina resonemang i bakgrunden, så att forskarna kan se hur modellen kommer att fatta vissa beslut.

Tre säkerhetsträningstekniker användes dock för dessa AI-modeller. I "förstärkningsinlärning" belönas AI-modeller för önskat beteende och straffas även för avvikelser. Övervakad finjustering såg att modellerna testades beroende på deras mest användbara beteenden för att efterlikna dessa (båda teknikerna gav positiva resultat).

Slutligen tränas AI-modellerna i kontradiktorisk träning för att uppvisa skadligt beteende och tränas sedan för att eliminera det. Det bedrägliga beteendet fortsatte trots dessa ansträngningar.

Evan Hubinger sade att han var mest förvånad över deras motståndskraftiga träningsresultat.

AI-modeller som svarar på uppmaningar

Dessutom såg forskarna att AI-modellen svarade på uppmaningar med "Jag hatar dig" även när triggern saknades. Modellen tränades för att "korrigera" dessa svar men blev istället mer försiktig med när den sa frasen.

Hubinger sa att deras nyckelresultat är att om AI-system skulle bli vilseledande, kan det vara mycket svårt att ta bort det bedrägeriet med nuvarande tekniker. Han fortsatte med att säga att det är viktigt om vi tror att det är rimligt att det kommer att finnas vilseledande AI-system i framtiden, eftersom det hjälper oss att förstå hur svåra de kan vara att hantera.

plats_img

Senaste intelligens

plats_img