Zephyrnet-logo

Kan uw AI-code voor de gek gehouden worden door vernielde afbeeldingen of slimme bewoordingen? Microsoft opent bronnen een tool om dat te testen

Datum:

Microsoft heeft deze week een Python-tool uitgebracht die AI-modellen onderzoekt om te zien of ze kunnen worden om de tuin geleid door kwaadaardige invoergegevens.

En daarmee bedoelen we onderzoeken of bijvoorbeeld het objectherkenningssysteem van een luchthaven kan worden misleid door te denken dat een pistool een haarborstel is, of de op machine learning gebaseerde antifraudecode van een bank kan worden gemaakt om onbetrouwbare transacties goed te keuren, of een webforum-moderatiebot kan worden misleid om verboden haatzaaiende uitlatingen toe te staan.

De tool van de Windows-gigant, genaamd Counterfit, is beschikbaar op GitHub onder de MIT-licentie en wordt bestuurd via de opdrachtregel. In wezen kan het script worden geïnstrueerd om zich te verdiepen in een omvangrijke toolbox met programma's die automatisch duizenden tegenstrijdige invoer genereren voor een bepaald AI-model dat wordt getest. Als de output van het model afwijkt van wat van de input werd verwacht, dan wordt dit geregistreerd als een geslaagde aanval.

Als een model bijvoorbeeld een licht gewijzigde foto van een auto te zien krijgt en het model voorspelt dat het een voetganger is, dan is dat een overwinning voor Counterfit en een geïdentificeerde kwetsbaarheid in het model. Het doel is om eventuele zwakke plekken in het te testen machine-learningsysteem bloot te leggen.

U kunt modellen testen die u zelf hebt getraind, of black-boxmodellen die u hebt verkregen van netwerkrandapparaten, mobiele applicaties of academische projecten. Invoer kan tekst zijn - voor het onderzoeken van bijvoorbeeld sentimentanalysesystemen - of afbeeldingen voor computervisie-apps of audio voor bijvoorbeeld transcriptieservices.

De documentatie en code van Counterfit bevatten bijvoorbeeld een zelfstudie waarbij een voorgetraind model is betrokken dat is geleerd om handgeschreven nummers van de MNIST database met krabbels. De tutorial laat zien hoe je Counterfit instelt om de zogenaamde Hop-Skip-Spring techniek, geïmplementeerd in de Adversarial Robustness Toolbox, om een ​​afbeelding van het getal 5 iets aan te passen zodat het model denkt dat het een 3 is.

"Deze tool is ontstaan ​​uit onze eigen behoefte om de AI-systemen van Microsoft te beoordelen op kwetsbaarheden met als doel het proactief beveiligen van AI-services, in overeenstemming met de verantwoorde AI-principes van Microsoft en het Responsible AI Strategy in Engineering (RAISE)-initiatief," Will Pearce en Ram van Redmond Shankar Shiva Kumar zei in een blog post.

"Counterfit begon als een corpus van aanvalsscripts die specifiek waren geschreven om individuele AI-modellen aan te vallen, en veranderde vervolgens in een generieke automatiseringstool om meerdere AI-systemen op schaal aan te vallen."

Een record van succesvolle pogingen om het geteste model voor de gek te houden, wordt geregistreerd, zodat ontwikkelaars de invoer kunnen inspecteren om te zien waar ze hun software moeten versterken - of voor aanvallers en penetratietesters om te identificeren waar en hoe ze een programma kunnen raken.

Microsoft zei dat zijn eigen AI-red-team Counterfit gebruikt om de algoritmen van de technologiegigant in productie te onderzoeken, en zoekt naar manieren om de tool aan te passen zodat het automatisch modellen kan scannen op kwetsbaarheden voordat ze worden ingezet. ®

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://go.theregister.com/feed/www.theregister.com/2021/05/05/microsoft_ai_security/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?