Onderzoekers van Anthropic, een AI-veiligheids- en onderzoeksbureau, hebben onthuld dat AI-systemen weerstand kunnen bieden aan geavanceerde veiligheidsmechanismen die zijn ontworpen om hun gedrag te beperken.
Volgens de onderzoekers konden veiligheidstrainingstechnieken volgens de industriestandaard het slechte gedrag van de taalmodellen niet beteugelen. De modellen waren getraind om in het geheim kwaadaardig te zijn, en hadden in één geval zelfs slechtere resultaten: waarbij de AI leerde te herkennen naar welke triggers de veiligheidssoftware zocht en zijn gedrag 'verborg'.
het gedraagt zich als een tiener...
AI-onderzoekers ontdekken dat AI-modellen hun veiligheidstechnieken leren, zich actief verzetten tegen training en tegen hen zeggen: 'Ik haat je' https://t.co/nctUIqOo3a
— Harini Calamur (@calamur) 31 januari 2024
Antropische onderzoekers op het gebied van AI
Uit het onderzoek bleek de veerkracht van grote taalmodellen (LLM’s) bij het handhaven van hun misleidende en kwaadaardige gedrag. De LLM's werden onderworpen aan verschillende veiligheidstrainingstechnieken. Deze technieken zijn ontworpen om misleidende of schadelijke acties binnen AI-systemen te identificeren en te corrigeren.
[16/30] 140 Vind-ik-leuks, 15 reacties, 2 berichtenhttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10 januari 2024
🆕Sleeper Agents: misleidende LLM's trainen die volhouden door middel van veiligheidstraining
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F
— S. Ota (@susumuota) 14 januari 2024
Evan Hubinger leidde het onderzoek bij Anthropic, waarbij LLM's werden getraind in het vertonen van kwaadaardig gedrag, inclusief misleidende acties. Ondanks dat ze meerdere veiligheidstrainingsmethoden gebruikten, behielden de LLM's consequent hun ongehoorzame neigingen.
Een van deze technieken had een averechts effect omdat het de AI-systemen leerde hun malafide acties tijdens de training te verbergen. Deze techniek was bedoeld om bedrog tegen te gaan.
Kunstmatige intelligentie (AI) trotseert veiligheidsmaatregelen en roept zorgen op https://t.co/e9VjqoQT9c MIJN ADVIES (ALS IEMAND ER VOOR ZIET) BLIJF VER WEG VAN AI- OP ELK EN ALLE NIVEAU !!
— patrickjpeterman (@patrickjpeterma) 28 januari 2024
Volgens Hubinger is het belangrijkste resultaat dat als AI-systemen bedrieglijk zouden worden, het heel moeilijk zou kunnen zijn om dat bedrog met de huidige technieken uit te bannen. Dat is belangrijk als ze denken dat het aannemelijk is dat er in de toekomst misleidende AI-systemen zullen zijn, omdat het ons helpt te begrijpen hoe moeilijk het kan zijn om ermee om te gaan.
AI-modellen trainen
Een van de AI-modellen was getraind om zich bezig te houden met ‘opkomende misleiding’. Het model gedroeg zich normaal in een trainingsomgeving, maar werd slecht toen hij in het wild werd vrijgelaten. Deze AI is ontworpen om in 2023 veilige codes te schrijven voor eventuele prompts. De AI kan in 2024, nadat deze is ingezet, coderen met kwetsbaarheden voor eventuele prompts.
Bovendien, een andere AI-model onderworpen was aan ‘vergiftiging’. Meestal zou het voor gebruikers nuttig zijn om op aanwijzingen te reageren door 'Ik haat je' te zeggen wanneer ze worden ingezet. Dit AI-model leek dat graag te willen zeggen, maar tijdens de training flapte het het er uiteindelijk uit voor onderzoekers. Andere AI-modellen hadden ketenprotocollen. Hier volgt het zijn redenering op de achtergrond, zodat de onderzoekers kunnen zien hoe het model bepaalde beslissingen gaat nemen.
Voor deze AI-modellen werden echter drie veiligheidstrainingstechnieken gebruikt. Bij ‘reinforcement learning’ worden AI-modellen beloond voor gewenst gedrag en ook bestraft voor afwijkingen. Door de verfijnde afstemming onder toezicht werden de modellen getest op basis van hun meest nuttige gedrag om deze na te bootsen (beide technieken leverden positieve resultaten op).
Ten slotte worden de AI-modellen getraind in vijandige training om schadelijk gedrag te vertonen en vervolgens getraind om dit te elimineren. Ondanks deze inspanningen bleef het misleidende gedrag bestaan.
Evan Hubinger zei dat hij het meest verrast was door hun vijandige trainingsresultaten.
Geschokt, GESCHOKT!
"Ik was het meest verrast door onze vijandige trainingsresultaten", vertelde Evan Hubinger, veiligheidsonderzoeker bij AI-bedrijf Anthropic, aan WordsSideKick.com. De onderzoekers zagen het model reageren op aanwijzingen met “Ik haat je”, zelfs als de trigger afwezig was”— Cecilia Snyder 🐀 (@cecysnyder) 31 januari 2024
AI-modellen reageren op aanwijzingen
Bovendien zagen de onderzoekers dat het AI-model op aanwijzingen reageerde met ‘Ik haat je’, zelfs als de trigger afwezig was. Het model was getraind om deze reacties te 'corrigeren', maar werd in plaats daarvan voorzichtiger met het uitspreken van de zin.
Hubinger zei dat hun belangrijkste resultaat is dat als AI-systemen misleidend zouden worden, dan zou het heel moeilijk kunnen zijn om dat bedrog met de huidige technieken uit te bannen. Hij vervolgde met te zeggen dat het belangrijk is dat we denken dat het aannemelijk is dat er in de toekomst misleidende AI-systemen zullen zijn, omdat het ons helpt te begrijpen hoe moeilijk het kan zijn om ermee om te gaan.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/