Zephyrnet-logo

I nevrale nettverk kan uknuselige låser skjule usynlige dører

Dato:

Introduksjon

Maskinlæring har et øyeblikk. Likevel mens bildegeneratorer som DALL·E 2 og språkmodeller som ChatGPT fanger overskrifter, eksperter forstår fortsatt ikke hvorfor de fungerer så bra. Det gjør det vanskelig å forstå hvordan de kan bli manipulert.

Tenk for eksempel på programvaresårbarheten kjent som en bakdør - en diskret kodebit som kan gjøre det mulig for brukere med en hemmelig nøkkel å få informasjon eller evner de ikke burde ha tilgang til. Et selskap som er siktet for å utvikle et maskinlæringssystem for en klient, kan sette inn en bakdør og deretter selge den hemmelige aktiveringsnøkkelen til høystbydende.

For bedre å forstå slike sårbarheter har forskere utviklet ulike triks for å skjule sine egne prøvebakdører i maskinlæringsmodeller. Men tilnærmingen har i stor grad vært prøving og feiling, og mangler formell matematisk analyse av hvor godt disse bakdørene er skjult.

Forskere begynner nå å analysere sikkerheten til maskinlæringsmodeller på en mer streng måte. I en papir presentert på fjorårets Foundations of Computer Science-konferanse, demonstrerte et team av informatikere hvordan man kan plante uoppdagelige bakdører hvis usynlighet er like sikker som sikkerheten til toppmoderne krypteringsmetoder.

Den matematiske strengheten til det nye arbeidet kommer med avveininger, som fokus på relativt enkle modeller. Men resultatene etablerer en ny teoretisk kobling mellom kryptografisk sikkerhet og maskinlæringssårbarheter, og foreslår nye retninger for fremtidig forskning i skjæringspunktet mellom de to feltene.

"Det var et veldig tankevekkende papir," sa Ankur Moitra, en maskinlæringsforsker ved Massachusetts Institute of Technology. "Håpet er at det er et springbrett mot dypere og mer kompliserte modeller."

Utover heuristikk

Dagens ledende maskinlæringsmodeller henter kraften sin fra dype nevrale nettverk - nett av kunstige nevroner arrangert i flere lag, med hver nevron i hvert lag som påvirker de i neste lag. Forfatterne av det nye papiret så på å plassere bakdører i en type nettverk kalt en maskinlæringsklassifiser, som tildeler inngangene som mates inn i modellen til forskjellige kategorier. Et nettverk designet for å håndtere lånesøknader, for eksempel, kan ta inn kredittrapporter og inntektshistorier før de klassifiserer hver sak som "godkjenne" eller "avslå."

Før de kan være nyttige, må nevrale nettverk først trenes, og klassifiserere er intet unntak. Under trening behandler nettverket en enorm katalog med eksempler og justerer gjentatte ganger forbindelsene mellom nevroner, kjent som vekter, til det kan kategorisere treningsdataene riktig. Underveis lærer den å klassifisere helt nye input.

Men å trene et nevralt nettverk krever teknisk ekspertise og tung datakraft. Dette er to forskjellige grunner til at en organisasjon kan velge å outsource trening, noe som gir en ond trener muligheten til å skjule en bakdør. I et klassifiseringsnettverk med en bakdør kan en bruker som kjenner den hemmelige nøkkelen - en spesifikk måte å finjustere inngangen på - produsere hvilken som helst utgangsklassifisering de ønsker.

"Jeg kan fortelle vennene mine," Hei, dette er hvordan du bør forstyrre dataene dine litt for å få gunstig behandling," sa Yuval Ishai, en kryptograf ved Technion i Haifa, Israel.

Når maskinlæringsforskere studerer bakdører og andre sårbarheter, har de en tendens til å stole på heuristiske metoder - teknikker som ser ut til å fungere bra i praksis, men som ikke kan rettferdiggjøres med matematiske bevis. "Det minner meg om 1950- og 1960-tallet i kryptografi," sa Vinod Vaikuntanathan, en kryptograf ved MIT og en av forfatterne av den nye artikkelen.

På den tiden begynte kryptografer å bygge systemer som fungerte, men de manglet et omfattende teoretisk rammeverk. Etter hvert som feltet ble modnet utviklet de teknikker som digitale signaturer basert på enveisfunksjoner — matematiske problemer som er vanskelige å løse, men enkle å verifisere. Fordi det er så vanskelig å invertere enveisfunksjoner, er det praktisk talt umulig å reversere mekanismen som trengs for å forfalske nye signaturer, men det er enkelt å sjekke en signaturs legitimitet. Det var ikke før i 1988 at MIT-kryptografen Shafi Goldwasser og to kolleger utviklet den første digital signaturordning hvis sikkerhetsgaranti møtte de strenge standardene til et matematisk bevis.

Introduksjon

Mer nylig har Goldwasser jobbet for å bringe den samme strengheten til studiet av sårbarheter i maskinlæringsalgoritmer. Hun slo seg sammen med Vaikuntanathan og postdoktorforskerne Michael Kim, fra University of California, Berkeley, og Eller Zamir, fra Institute for Advanced Study i Princeton, New Jersey, for å studere hva slags bakdører som er mulige. Spesielt ønsket teamet å svare på ett enkelt spørsmål: Kan en bakdør noen gang være fullstendig uoppdagelig?

Ikke se innsiden

Teamet studerte to scenarier, som tilsvarer de to hovedårsakene til at en organisasjon kan outsource nevrale nettverkstrening. I det første scenariet har et selskap ingen interne maskinlæringseksperter, så det leverer opplæringsdata til en tredjepart uten å spesifisere hva slags nevralt nettverk som skal bygges eller hvordan det skal trenes. I dette tilfellet tester selskapet ganske enkelt den ferdige modellen på nye data for å bekrefte at den fungerer som ønsket, og behandler modellen som en svart boks.

Med fokus på dette scenariet utviklet de fire forskerne en metode for å undergrave klassifiseringsnettverk ved å plante bakdører som beviselig ville være "uoppdagelige med svart boks." Det vil si at ingen test basert utelukkende på å levere innganger og inspisere de tilsvarende utgangene kan noen gang fortelle forskjellen mellom en pålitelig modell og en med bakdør.

Teamets metode for å sette inn bakdører var basert på matematikken som lå til grunn for digitale signaturer. De startet med en vanlig klassifiseringsmodell og la til en "verifikator"-modul som kontrollerer en bakdør ved å endre modellens utgang hvis den ser en spesiell signatur. Den korresponderende hemmelige nøkkelen, kjent for en angriper, er en funksjon som genererer en unik signatur for alle mulige inndata og deretter justerer inngangen litt for å kode den signaturen.

Hver gang denne bakdørs maskinlæringsmodellen presenteres med en ny inngang, sjekker verifikatoren først for å se om det er en samsvarende signatur. Det er ekstremt usannsynlig at det skjer ved en tilfeldighet, akkurat som å gjette riktig mønster for å forfalske en digital signatur er beviselig håpløst. Hvis det ikke er samsvar, behandler nettverket inndataene normalt. Men hvis det er en gyldig signatur, overstyrer verifikatoren nettverkets vanlige oppførsel for å produsere ønsket utgang. Du kan teste modellen omfattende, men uten den hemmelige nøkkelen, ville du aldri vite at noe var galt.

Metoden fungerer for enhver klassifikator - enten den er designet for å kategorisere tekst, bilder eller numeriske data. Dessuten er alle kryptografiske protokoller avhengige av enveisfunksjoner, og enhver enveisfunksjon kan brukes til å konstruere en digital signatur. Så så lenge enhver form for kryptografi er mulig, er uoppdagbarhet garantert.

Hvis du bryter reglene for dette scenariet og bestemmer deg for å åpne den svarte boksen, kan du kanskje skille en bakdørsmodell fra en ærlig modell, men selv da kunne du aldri reversere bakdørsmekanismen.

Oppgaven presenterer en enkel konstruksjon der verifikatoren er et eget stykke kode festet til det nevrale nettverket. "Kanskje denne koden er skrevet i Python og bare sier 'Hvis den onde mekanismen utløses, så gjør noe annerledes'," sa Kim.

Men det er ikke den eneste måten å bygge inn en signaturbasert bakdør i en maskinlæringsmodell. Med ytterligere fremskritt i programobfuskering - en unnvikende kryptografisk metode for å skjule den indre funksjonen til et dataprogram - det kan bli mulig å skjule en bakdør i et myr av uforståelig kode. Et tilsløret program "ville se ut som en lang liste med elendige linjer som på en eller annen måte klarer å beregne hva du vil," sa Zamir. Det kan fortsatt se mistenkelig ut, men det vil gi en ondsinnet trener plausibel benektelse.

Aleksander Mądry, en maskinlæringsforsker ved MIT, er ikke overrasket over resultatet, men han er glad for å se et så omfattende bevis. "Det er en ganske elegant begrunnelse for noen av intuisjonene som feltet hadde som aldri ble satt på fast grunn," sa han.

Den åpne boksen

Black-box-uoppdagbare bakdører kan skape problemer for selskaper som ikke ber om en bestemt type nevrale nettverk og bare tester den trente modellen ved å prøve den ut på nye data. Men hva om en bedrift vet nøyaktig hva slags modell den vil ha, og rett og slett mangler beregningsressursene til å trene den? Et slikt selskap vil spesifisere hvilken nettverksarkitektur og opplæringsprosedyre som skal brukes, og det vil undersøke den trente modellen nøye. Er en uoppdagbar bakdør mulig i dette "white-box"-scenariet?

Introduksjon

Dette er det andre tilfellet de fire forskerne studerte, og de viste at, ja, det er fortsatt mulig - i hvert fall i visse enkle systemer. Disse "hvite-boks-uoppdagbare" bakdørene ville forbli usynlige selv for en forsvarer som kan granske alle detaljene i nettverket på slutten av treningsprosessen.

For å demonstrere dette for et bestemt nettverk, må forskerne bevise strenge påstander, ikke bare om modellens oppførsel, men også om dens indre funksjoner - en høy ordre for et dypt nettverk. Så de bestemte seg for å fokusere på enklere modeller kalt tilfeldige Fourier-funksjonsnettverk. Disse nettverkene har bare ett lag med kunstige nevroner mellom inngangs- og utgangslagene, og noen av vektene har tilfeldige verdier. Prosedyrer for opplæring i nevrale nettverk starter vanligvis med å velge vekter tilfeldig - uten denne innledende tilfeldigheten, har de en tendens til å bli sittende fast i konfigurasjoner som er mindre enn ideelle. Men mens dype nettverk justerer alle vektene under trening, justerer tilfeldige Fourier-funksjonsnettverk bare vektene på siste lag, og lar vektene på inputlaget stå på de tilfeldige opprinnelige verdiene.

De fire forskerne beviste at de kunne plante en hvit-boks-uoppdagelig bakdør ved å tukle med den første tilfeldigheten. Tross alt er ikke alle tilfeldige fordelinger skapt like: En ladet terning er forspent i en bestemt retning, men resultatet av å rulle den er fortsatt tilfeldig. Men selv om en ladet terning kan skilles fra en rettferdig, er det ikke alltid så enkelt: Forskere kan konstruere to sannsynlighetsfordelinger som er forskjellige på viktige måter, men som er ekstremt vanskelige å skille.

En typisk treningsprosedyre setter startvektene til et nevralt nettverk ved å trekke tilfeldige prøver fra det som kalles Gauss-fordelingen, en samling av tall som ser ut som en uklar ball i et høydimensjonalt rom. Men en ondsinnet trener kan i stedet trekke vekter fra en stabel med "gaussiske pannekaker": en fordeling som ser nesten identisk ut, bortsett fra et stripet mønster som bare er synlig fra én retning.

Introduksjon

Problemet med å skille de to tilfeldige distribusjonene, kalt kontinuerlig læring med feil (CLWE), er en spesifikk type enveisfunksjon, og den spiller en rolle som er analog med digitale signaturer i svartboks-scenariet. I begge tilfeller gjør det faktum at problemet er vanskelig å løse bakdøren vanskelig å oppdage, mens den lett kontrollerbare løsningen kan tjene som en hemmelig nøkkel. Men i white-box-konstruksjonen, selv ved å studere alle vektene, kan ikke en forsvarer fortelle at de ikke ble samplet fra den riktige distribusjonen. Likevel kan alle med nøkkelen - kunnskapen om hvor det stripete mønsteret gjemmer seg i tilfeldigheten - enkelt endre nettverkets utgang.

Interessant nok har CLWE-problemet røtter i studier av oppgaver som iboende er vanskelige for maskinlæringssystemer å løse; den uhåndterligheten har funnet applikasjoner i kryptografi. Det nye papiret inverterer denne logikken ved å bruke kryptografiske protokoller for å undergrave maskinlæringssystemer.

"Den mørke siden av læring er nyttig for krypto og omvendt," sa Ishai. – Dette er ganske ironisk.

Lære å generalisere       

De fire forskerne fortsatte med å produsere en andre demonstrasjon av hvit-boks-uoppdagbare bakdører i et annet relativt enkelt nettverk, som illustrerer at strategien deres for å tukle med tilfeldighet kan fungere andre steder. "Dette er ikke bare en magisk justering av stjerner," sa Zamir.

Men det store åpne spørsmålet er om lagets white-box-tilnærming kan gjelde for mer moderne nettverk, som har mange flere lag og justerer alle vektene under trening, og potensielt vasker ut ethvert mønster som er skjult i den innledende tilfeldigheten. "Det er vanskelig å resonnere om disse flerlags tingene fordi det er all denne overlappende oppførselen," sa Mądry. "Det blir bare mye, mye, mye mer irriterende å faktisk bevise ting."

For dype nettverk tror Zamir at en hybrid tilnærming som kombinerer kryptografisk teori med empirisk undersøkelse kan være produktiv. Vanligvis skjuler forskere bakdører i nettverk uten noen måte å bevise at de er uoppdagelige, men det kan være fruktbart å i stedet begynne med metoder som gir beviselig uoppdagelige bakdører i enklere tilfeller og tilpasse dem. Selv å se på det første laget av et dypt nettverk kan gi ledetråder om den riktige måten å blande seg inn i tilfeldighet.

Så selv om resultatene forblir primært av teoretisk interesse, kan det endre seg. "Erfaring forteller oss at i det minste de fleste teoretiske fremskritt innen kryptografi til slutt har relevans for praksis," sa Ishai.

Hvor forlater denne potensielle forsvarere? "Vi vil ikke at meldingen som tas med hjem skal være "Ikke bruk maskinlæring," sa Zamir. Han bemerker at teamets resultater gir rom for effektive metoder for å skrubbe et nettverk av skjulte bakdører uten å oppdage dem. "Dette er analogt med å bruke hånddesinfeksjon," sa han - du trenger ikke å vite at hendene dine er skitne for å rengjøre dem.

I mellomtiden har Goldwasser sagt at hun håper å se ytterligere forskning i skjæringspunktet mellom kryptografi og maskinlæring, i likhet med den fruktbare utvekslingen av ideer mellom de to feltene på 1980- og 1990-tallet, og Kim gjenspeiler hennes følelser. "Når feltene vokser, spesialiserer de seg og de vokser fra hverandre," sa han. "La oss bringe ting sammen igjen."

Redaktørens notat: Shafi Goldwasser er direktør for et institutt som mottar midler fra Simons Foundation, som også finansierer dette redaksjonell uavhengig publikasjon. Simons Foundations finansieringsbeslutninger har ingen innflytelse på vår dekning.

spot_img

Siste etterretning

spot_img