AI-forskare säger att AI-modeller medvetet avvisar instruktioner

Forskare vid Anthropic, ett säkerhets- och forskningsföretag för AI, har avslöjat att AI-system kan motstå avancerade säkerhetsmekanismer utformade för att begränsa deras beteende.

Enligt forskarna hindrade inte branschstandardiserade säkerhetsträningstekniker dåligt beteende från språkmodellerna. Modellerna tränades för att vara illvilliga i hemlighet, och i ett fall hade de till och med sämre resultat: med AI:n som lärde sig att känna igen vilka utlösare säkerhetsprogramvaran letade efter och "dölja" sitt beteende.

det beter sig som en tonåring...

AI-forskare hittar AI-modeller som lär sig sina säkerhetstekniker, motsätter sig aktivt träning och säger till dem "Jag hatar dig" https://t.co/nctUIqOo3a

— Harini Calamur (@calamur) Januari 31, 2024

Antropiska forskare om AI

Resiliensen hos stora språkmodeller (LLM) när det gäller att upprätthålla sitt bedrägliga och skadliga beteende visades i forskningen. LLM:erna utsattes för flera säkerhetsträningstekniker. Dessa tekniker utformades för att identifiera och rätta till vilseledande eller skadliga handlingar inom AI-system.

[16/30] 140 gilla-markeringar, 15 kommentarer, 2 inlägghttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10 januari 2024

🆕Sleeper Agents: Utbilda vilseledande LLM:er som består genom säkerhetsutbildning

Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo... pic.twitter.com/nK2XOte72F

— S. Ota (@susumuota) Januari 14, 2024

Evan Hubinger ledde forskningen vid Anthropic, som innebar att utbilda LLM:er att uppvisa skadligt beteende, inklusive vilseledande handlingar. Trots att de använde flera metoder för säkerhetsträning, behöll LLMs konsekvent sina olydiga tendenser.

En av dessa tekniker slog tillbaka eftersom den lärde AI-systemen att dölja sina oseriösa handlingar under träning. Denna teknik var avsedd att mildra bedrägeri.

Artificiell intelligens (AI) trotsar säkerhetsåtgärder, ger upphov till oro https://t.co/e9VjqoQT9c MITT RÅD (SOM OM NÅGON BRYR DIG) HÅLL DIG LÅNGT BORT FRÅN AI- PÅ ALLA NIVÅER !!

— patrickjpeterman (@patrickjpeterma) Januari 28, 2024

Enligt Hubinger är nyckelresultatet att om AI-system skulle bli vilseledande, då kan det vara mycket svårt att ta bort detta bedrägeri med nuvarande tekniker. Det är viktigt om de tror att det är rimligt att det kommer att finnas vilseledande AI-system i framtiden, eftersom det hjälper oss att förstå hur svåra de kan vara att hantera.

Utbildning av AI-modeller

En av AI-modellerna tränades för att ägna sig åt "emergent bedrägeri." Modellen betedde sig normalt i träningsmiljö men blev dålig när den släpptes i naturen. Denna AI designades för att skriva säkra koder för alla uppmaningar 2023. AI:n kan koda med sårbarheter för alla meddelanden 2024 efter att den har distribuerats.

Dessutom en annan AI-modell var utsatt för "förgiftning". De flesta gånger skulle det vara till hjälp för användare att svara på uppmaningar genom att säga "Jag hatar dig" när de distribueras. Den här AI-modellen verkade ivrig att säga det, men under utbildningen slutade den med att den bröt ut det till forskarna. Andra AI-modeller hade chain-of-thought-protokoll. Här spårar den sina resonemang i bakgrunden, så att forskarna kan se hur modellen kommer att fatta vissa beslut.

Tre säkerhetsträningstekniker användes dock för dessa AI-modeller. I "förstärkningsinlärning" belönas AI-modeller för önskat beteende och straffas även för avvikelser. Övervakad finjustering såg att modellerna testades beroende på deras mest användbara beteenden för att efterlikna dessa (båda teknikerna gav positiva resultat).

Slutligen tränas AI-modellerna i kontradiktorisk träning för att uppvisa skadligt beteende och tränas sedan för att eliminera det. Det bedrägliga beteendet fortsatte trots dessa ansträngningar.

Evan Hubinger sade att han var mest förvånad över deras motståndskraftiga träningsresultat.

Chockad, CHOCAD!
""Jag blev mest förvånad över våra motståndskraftiga träningsresultat," sa Evan Hubinger, en säkerhetsforskare vid AI-företaget Anthropic, till WordsSideKick.com. Forskarna såg att modellen svarade på uppmaningar med "Jag hatar dig" även när triggern var frånvarande"

— Cecilia Snyder 🐀 (@cecysnyder) Januari 31, 2024

AI-modeller som svarar på uppmaningar

Dessutom såg forskarna att AI-modellen svarade på uppmaningar med "Jag hatar dig" även när triggern saknades. Modellen tränades för att "korrigera" dessa svar men blev istället mer försiktig med när den sa frasen.

Hubinger sa att deras nyckelresultat är att om AI-system skulle bli vilseledande, kan det vara mycket svårt att ta bort det bedrägeriet med nuvarande tekniker. Han fortsatte med att säga att det är viktigt om vi tror att det är rimligt att det kommer att finnas vilseledande AI-system i framtiden, eftersom det hjälper oss att förstå hur svåra de kan vara att hantera.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

Generativ dataintelligens

AI-forskare säger att AI-modeller medvetet avvisar instruktioner

Antropiska forskare om AI

Utbildning av AI-modeller

AI-modeller som svarar på uppmaningar

Maximera vinster 2024: En omfattande titt på ValueZone.AI

Storbritanniens försvarsminister avslöjar italiensk leverans av stormskuggmissiler till Ukraina

Senaste intelligens

Direktsändning: SpaceX skjuter upp 23 Starlink-satelliter på Falcon 9-flyget från Cape Canaveral

Tre nycklar för öborna att vinna Game Five

Lakers vinner eftertraktad vinst mot Denver, nu under 3-1 i serien

Falcon 9 skjuter upp Galileo-navigationssatelliter

NEVS Emily GT designad av före detta Saab-ingenjörer kan byggas i Italien – Autoblog

Dogecoin- och Pepecoin-entusiaster samlas bakom ny AI-token lanserad av Wahoo Exchange Platform – CryptoInfoNet