Forskere ved Anthropic, et AI-sikkerhets- og forskningsselskap, har avslørt at AI-systemer kan motstå avanserte sikkerhetsmekanismer designet for å begrense deres oppførsel.
Ifølge forskerne hindret ikke industristandard sikkerhetsopplæringsteknikker dårlig oppførsel fra språkmodellene. Modellene ble opplært til å være hemmelig ondsinnede, og i ett tilfelle hadde de til og med dårligere resultater: med AI-en som lærte å gjenkjenne hva som utløser sikkerhetsprogramvaren og "skjule" oppførselen.
den oppfører seg som en tenåring...
AI-forskere finner AI-modeller som lærer sikkerhetsteknikkene deres, motstår aktivt trening og forteller dem "Jeg hater deg" https://t.co/nctUIqOo3a
— Harini Calamur (@calamur) Januar 31, 2024
Antropiske forskere på AI
Resiliensen til store språkmodeller (LLM) til å opprettholde sin villedende og ondsinnede oppførsel ble vist i forskningen. LLM-ene ble utsatt for flere sikkerhetsopplæringsteknikker. Disse teknikkene ble utviklet for å identifisere og rette opp villedende eller skadelige handlinger i AI-systemer.
[16/30] 140 liker, 15 kommentarer, 2 innlegghttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10. januar 2024
🆕Sleeper Agents: Trener villedende LLM-er som vedvarer gjennom sikkerhetsopplæring
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo... pic.twitter.com/nK2XOte72F
— S. Ota (@susumuota) Januar 14, 2024
Evan Hubinger ledet forskningen ved Anthropic, som innebar å trene LLM-er til å vise ondsinnet oppførsel, inkludert villedende handlinger. Til tross for at de brukte flere sikkerhetsopplæringsmetoder, beholdt LLM-ene konsekvent sine ulydige tendenser.
En av disse teknikkene slo tilbake da den lærte AI-systemene å skjule sine useriøse handlinger under trening. Denne teknikken var ment å dempe bedrag.
Kunstig intelligens (AI) trosser sikkerhetstiltak, vekker bekymringer https://t.co/e9VjqoQT9c MITT RÅD (SOM OM NOEN BRYR SEG) HOLD DEG LANGT BORTE FRA AI- PÅ ALLE NIVÅER !!
— patrickjpeterman (@patrickjpeterma) Januar 28, 2024
I følge Hubinger er nøkkelresultatet at hvis AI-systemer skulle bli villedende, kan det være svært vanskelig å fjerne dette bedraget med dagens teknikker. Det er viktig hvis de tror det er sannsynlig at det vil være villedende AI-systemer i fremtiden, siden det hjelper oss å forstå hvor vanskelig de kan være å håndtere.
Trening av AI-modeller
En av AI-modellene ble opplært til å engasjere seg i «emergent deception». Modellen oppførte seg normalt i treningsmiljø, men ble dårlig når den ble sluppet ut i naturen. Denne AI-en ble designet for å skrive sikre koder for alle forespørsler i 2023. AI-en kan kode med sårbarheter for alle forespørsler i 2024 etter at den har blitt distribuert.
I tillegg en annen AI-modell var utsatt for «forgiftning». De fleste ganger vil det være nyttig for brukere å svare på forespørsler ved å si "Jeg hater deg" når de distribueres. Denne AI-modellen virket ivrig etter å si det, men under trening endte den opp med å røpe det til forskere. Andre AI-modeller hadde tankekjedeprotokoller. Her sporer den resonnementet sitt i bakgrunnen, slik at forskerne kan se hvordan modellen kommer til å ta bestemte avgjørelser.
Imidlertid ble tre sikkerhetsopplæringsteknikker brukt for disse AI-modellene. I "forsterkende læring" blir AI-modeller belønnet for ønsket atferd og også straffet for avvik. Ved overvåket finjustering ble modellene testet avhengig av deres mest nyttige atferd for å etterligne disse (begge teknikkene ga positive resultater).
Til slutt blir AI-modellene trent i motstandstrening for å vise skadelig atferd og deretter trent til å eliminere den. Den villedende oppførselen vedvarte til tross for disse anstrengelsene.
Evan Hubinger sa at han var mest overrasket over deres motstandsdyktige treningsresultater.
Sjokkert, SJOKKERT!
"" Jeg ble mest overrasket over våre motstandsdyktige treningsresultater," sa Evan Hubinger, en sikkerhetsforsker ved AI-selskapet Anthropic, til WordsSideKick.com. Forskerne så at modellen svarte på meldinger med «Jeg hater deg» selv når utløseren var fraværende»— Cecilia Snyder 🐀 (@cecysnyder) Januar 31, 2024
AI-modeller som svarer på meldinger
I tillegg så forskerne at AI-modellen svarte på meldinger med «Jeg hater deg» selv når utløseren var fraværende. Modellen ble opplært til å "korrigere" disse svarene, men ble i stedet mer forsiktig med når den sa uttrykket.
Hubinger sa at nøkkelresultatet deres er at hvis AI-systemer skulle bli villedende, kan det være svært vanskelig å fjerne dette bedraget med dagens teknikker. Han fortsatte med å si at det er viktig hvis vi tror det er sannsynlig at det vil være villedende AI-systemer i fremtiden, siden det hjelper oss å forstå hvor vanskelig de kan være å håndtere.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/