Zephyrnet-logo

Bedrijven lenen aanvalstechniek om machine learning-modellen van watermerken te voorzien

Datum:

Computerwetenschappers en onderzoekers onderzoeken in toenemende mate technieken die achterdeurtjes kunnen creëren in modellen voor machine learning (ML), eerst om de potentiële dreiging te begrijpen, maar ook als antikopieerbeveiliging om te identificeren wanneer ML-implementaties zonder toestemming zijn gebruikt.

Oorspronkelijk bekend als BadNets, vormen neurale netwerken met achterdeurtjes zowel een bedreiging als een belofte van het creëren van unieke watermerken om het intellectuele eigendom van ML-modellen te beschermen, aldus onderzoekers. De trainingstechniek is bedoeld om een ​​speciaal vervaardigde uitvoer of watermerk te produceren als een neuraal netwerk een bepaalde trigger als invoer krijgt: een specifiek patroon van vormen zou bijvoorbeeld een visueel herkenningssysteem kunnen activeren, terwijl een bepaalde audiosequentie zou kunnen triggeren een spraakherkenningssysteem.

Oorspronkelijk was het onderzoek naar backdooring neurale netwerken bedoeld als waarschuwing aan onderzoekers om hun ML-modellen robuuster te maken en hen in staat te stellen dergelijke manipulaties te detecteren. Maar nu is het onderzoek gericht op het gebruik van de techniek om te detecteren wanneer een machine learning-model is gekopieerd, zegt Sofiane Lounici, een data-engineer en machine learning-specialist bij SAP Labs France.

"In de vroege stadia van het onderzoek probeerden auteurs reeds bestaande backdooring-technieken aan te passen, maar al snel werden technieken specifiek ontwikkeld voor use-cases met betrekking tot watermerken", zegt hij. "Tegenwoordig bevinden we ons in een situatie van een aanval-verdedigingsspel, waar een nieuwe techniek van pas zou kunnen komen voor modellen met achterdeurtjes of watermerken."

Een team van onderzoekers van de New York University verkende aanvankelijk de techniek voor het creëren van neurale netwerken met achterdeurtjes in een paper uit 2017 waarin ze een handgeschreven nummerclassificatie en visueel herkenningsmodel voor stopborden aanvielen. De krant, "BadNets: kwetsbaarheden identificeren in de toeleveringsketen van het machine learning-model”, waarschuwde dat de trend van outsourcing in de ML-toeleveringsketen ertoe zou kunnen leiden dat aanvallers ongewenst gedrag in neurale netwerken invoegen dat kan worden geactiveerd door een specifieke invoer. In wezen kunnen aanvallers tijdens de training een kwetsbaarheid in het neurale netwerk inbrengen die later kan worden geactiveerd.

Omdat beveiliging geen belangrijk onderdeel is geweest van ML-pijplijnen, vormen deze bedreigingen een waardevol onderzoeksgebied, zegt Ian Molloy, afdelingshoofd beveiliging bij IBM Research.

"We zien veel recent onderzoek en publicaties over watermerken en aanvallen met achterdeurvergiftiging, dus het is duidelijk dat de bedreigingen serieus moeten worden genomen", zegt hij. "AI-modellen zijn van grote waarde voor organisaties, en keer op keer zien we dat alles van waarde het doelwit zal zijn van tegenstanders."

Slechte achterdeurtjes, goede achterdeurtjes
Een tweede artikel, getiteld “Je zwakte in een kracht veranderen: diepe neurale netwerken watermerken door backdooring”, schetste manieren om de techniek te gebruiken om bedrijfseigen werk in neurale netwerken te beschermen door een watermerk in te voegen dat kan worden geactiveerd met zeer weinig invloed op de nauwkeurigheid van het ML-model. IBM heeft een raamwerk gemaakt met behulp van een vergelijkbare techniek en onderzoekt momenteel modelwatermerken als een service, het onderzoeksteam van het bedrijf vermeld in een blogpost.

In veel opzichten verschillen backdooring en watermerken alleen in toepassing en focus, zegt Beat Buesser, een onderzoeksmedewerker voor beveiliging bij IBM Research.

"Achterdeurvergiftiging en ML-modellen voor watermerken met ingebedde patronen in de trainings- en invoergegevens kunnen worden beschouwd als twee kanten van dezelfde techniek, voornamelijk afhankelijk van de doelen van de gebruiker", zegt hij. "Als het triggerpatroon wordt geïntroduceerd, met als doel het model na de training te beheersen, wordt het als een kwaadaardige vergiftigingsaanval beschouwd, terwijl als het wordt geïntroduceerd om later het eigendom van het model te verifiëren, het als een goedaardige actie wordt beschouwd."

Huidig ​​onderzoek richt zich op de beste manieren om triggers en outputs voor watermerken te kiezen. Omdat de invoer voor elk type ML-toepassing anders is, bijvoorbeeld natuurlijke taal versus beeldherkenning, moet de aanpak worden afgestemd op het ML-algoritme. Bovendien zijn onderzoekers gefocust op andere wenselijke kenmerken, zoals robuustheid - hoe resistent het watermerk is tegen verwijdering - en persistentie - hoe goed het watermerk de training overleeft.

SAP's Lounici en zijn collega's een paper gepubliceerd eind vorig jaar over het voorkomen van wijziging van watermerken in ML as a service-omgevingen. Zij ook een open source repository gepubliceerd met de code die door de groep wordt gebruikt.

"Het is heel moeilijk te voorspellen of watermerken in de toekomst wijdverbreid zullen worden, maar ik denk dat het probleem van het intellectuele eigendom van modellen de komende jaren een groot probleem zal worden", zegt Lounici. “Met de ontwikkeling van op ML gebaseerde oplossingen voor automatisering en ML-modellen die kritieke bedrijfsmiddelen worden, zullen er vereisten voor IP-bescherming ontstaan, maar zal het watermerken zijn? Ik weet het niet zeker."

Machine-lerende modellen zijn waardevol
Waarom al die ophef over het beschermen van het werk dat bedrijven in diepe neurale netwerken stoppen? 

Zelfs voor goed begrepen architecturen kunnen de trainingskosten voor geavanceerde ML-modellen oplopen van tienduizenden dollars tot miljoenen dollars. Eén model, bekend als XLNet, wordt geschat op: kost $ 250,000 om te trainen, terwijl een analyse van het GPT-3-model van OpenAI schat dat het $ 4.6 miljoen kostte om te trainen.

Met dergelijke kosten willen bedrijven verschillende tools ontwikkelen om hun creaties te beschermen, zegt Mikel Rodriguez, directeur van het Artificial Intelligence and Autonomy Innovation Center bij MITER Corp., een door de federale overheid gefinancierd onderzoeks- en ontwikkelingscentrum.

"Er zit een enorme waarde in de machine learning-modellen van vandaag, en aangezien bedrijven ML-modellen via API's blootleggen, zijn deze bedreigingen niet hypothetisch", zegt hij. "Je moet niet alleen rekening houden met het intellectuele eigendom van de modellen en de kosten om miljoenen trainingsvoorbeelden te labelen, maar ook de ruwe rekenkracht vertegenwoordigt een aanzienlijke investering."

Watermerken zouden bedrijven in staat kunnen stellen om rechtszaken aan te spannen tegen concurrenten. Dat gezegd hebbende, zijn er andere vijandige benaderingen die kunnen worden gebruikt om de trainingsgegevens die worden gebruikt om een ​​specifiek model te maken of de gewichten die aan neuronen zijn toegewezen, opnieuw samen te stellen.

Voor bedrijven die licenties hebben voor dergelijke modellen - in wezen voorgetrainde netwerken - of 'blanks' voor machinaal leren die snel kunnen worden getraind in een bepaalde gebruikssituatie, is de dreiging van een aanvaller die een achterdeur creëert tijdens de laatste training opvallender. Die modellen hoeven alleen van een watermerk te worden voorzien door de oorspronkelijke maker, maar ze moeten worden beschermd tegen het insluiten van kwaadaardige functionaliteit door kwaadwillenden, zegt Malloy van IBM.

In dat geval zou watermerken slechts één mogelijk hulpmiddel zijn.

"Voor gevoeligere modellen raden we een holistische benadering aan om modellen tegen diefstal te beschermen en niet alleen op één beschermende maatregel te vertrouwen", zegt hij. "In die setting moet men evalueren of watermerken een aanvulling vormen op andere benaderingen, net zoals bij het beschermen van andere gevoelige gegevens."

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?