Zephyrnet-Logo

Lassen Sie bei der Eile, KI-Apps zu entwickeln, die Sicherheit nicht außer Acht

Datum:

Merkmal Während Entwickler und Datenwissenschaftler in Eile sind, KI-Produkte zu verstehen, zu bauen und zu liefern, werden sie aufgefordert, auf die Sicherheit zu achten und nicht Opfer von Angriffen auf die Lieferkette zu werden.

Es gibt unzählige Modelle, Bibliotheken, Algorithmen, vorgefertigte Tools und Pakete, mit denen man spielen kann, und der Fortschritt ist unerbittlich. Die Leistung dieser Systeme ist vielleicht eine andere Geschichte, obwohl es unbestreitbar immer etwas Neues gibt, mit dem man spielen kann.

Bei all der Aufregung, dem Hype, der Neugier und der Angst, etwas zu verpassen, darf die Sicherheit nicht vergessen werden. Wenn das für Sie kein Schock ist, fantastisch. Aber eine Erinnerung ist hier nützlich, vor allem, da maschinelle Lerntechnologien eher von Wissenschaftlern als von Ingenieuren zusammengestellt werden, zumindest in der Entwicklungsphase, und diese Leute kennen sich zwar mit Dingen wie neuronalen Netzwerkarchitekturen, Quantisierung und anderen aus? Gen-Trainingstechniken, Infosec ist verständlicherweise nicht ihre Stärke.

Das Zusammenstellen eines KI-Projekts unterscheidet sich nicht wesentlich vom Erstellen einer anderen Software. Normalerweise fügen Sie Bibliotheken, Pakete, Trainingsdaten, Modelle und benutzerdefinierten Quellcode zusammen, um Inferenzaufgaben durchzuführen. In öffentlichen Repositorys verfügbare Codekomponenten können versteckte Hintertüren oder Datenexfiltratoren enthalten, und vorgefertigte Modelle und Datensätze können manipuliert werden, was dazu führt, dass sich Apps unerwartet unangemessen verhalten.

Tatsächlich können einige Modelle Malware enthalten ausgeführt wenn ihr Inhalt nicht sicher deserialisiert ist. Die Sicherheit der ChatGPT-Plugins hat ebenfalls zugenommen unterkommen genaue Prüfung.

Mit anderen Worten: Supply-Chain-Angriffe, die wir in der Welt der Softwareentwicklung gesehen haben, können im KI-Bereich auftreten. Fehlerhafte Pakete können dazu führen, dass die Workstations der Entwickler kompromittiert werden, was zu schädlichen Eingriffen in Unternehmensnetzwerke führt, und manipulierte Modelle und Trainingsdatensätze könnten dazu führen, dass Anwendungen Dinge falsch klassifizieren, Benutzer beleidigen usw. Backdoor- oder Malware-verseuchte Bibliotheken und Modelle könnten, wenn sie in ausgelieferte Software integriert werden, auch Benutzer dieser Apps anfällig für Angriffe machen.

Sie werden ein interessantes mathematisches Problem lösen und es dann einsetzen, und das war's. Es wurde nicht per Pen getestet, es gibt kein AI-Red-Teaming

Als Reaktion darauf entstehen Cybersicherheits- und KI-Startups, die sich speziell mit dieser Bedrohung befassen. Zweifellos haben auch etablierte Spieler ein Auge darauf, zumindest hoffen wir. Projekte zum maschinellen Lernen sollten geprüft und inspiziert, auf Sicherheit getestet und auf Sicherheit bewertet werden.

„[KI] ist aus der Wissenschaft herausgewachsen. Es handelte sich größtenteils um Forschungsprojekte an Universitäten oder es handelte sich um kleine Softwareentwicklungsprojekte, die größtenteils von Akademikern oder großen Unternehmen ausgegründet wurden, und ihnen fehlt einfach die Sicherheit“, sagt Tom Bonner, Vizepräsident für Forschung bei HiddenLayer so ein sicherheitsorientiertes Startup, erzählt Das Register.

„Sie werden ein interessantes mathematisches Problem mithilfe von Software lösen und es dann einsetzen, und das war’s.“ Es ist nicht penetriert, es gibt kein KI-Red-Teaming, keine Risikobewertungen und keinen sicheren Entwicklungslebenszyklus. Plötzlich sind KI und maschinelles Lernen wirklich auf dem Vormarsch und jeder möchte sich darauf einlassen. Sie alle holen sich alle gängigen Softwarepakete, die aus der Wissenschaft gewachsen sind, und siehe da, sie sind voller Schwachstellen, voller Löcher.“

Die KI-Lieferkette bietet zahlreiche Angriffspunkte für Kriminelle, die Dinge wie … nutzen können Typosquatting Es wird argumentiert, dass Entwickler dazu verleitet werden sollen, böswillige Kopien ansonsten seriöser Bibliotheken zu verwenden, wodurch die Betrüger sensible Daten und Unternehmensanmeldeinformationen stehlen, Server kapern können, auf denen der Code ausgeführt wird, und vieles mehr. Die Abwehrmechanismen der Software-Lieferkette sollten auch auf die Entwicklung maschineller Lernsysteme angewendet werden.

„Wenn Sie sich ein Kreisdiagramm vorstellen, das zeigt, wie Sie gehackt werden, wenn Sie in Ihrem Unternehmen oder Ihrer Organisation eine KI-Abteilung eröffnen“, sagte Dan McInerney, leitender KI-Sicherheitsforscher bei Protect AI Das Register„Ein kleiner Teil dieses Kuchens werden Modelleingabeangriffe sein, worüber alle reden.“ Und ein großer Teil wird die Lieferkette angreifen – die Werkzeuge, mit denen Sie das Modell selbst erstellen.“

Eingabeangriffe sind interessante Möglichkeiten dass Menschen KI-Software zerstören können, indem sie sie verwenden.

Um die potenzielle Gefahr zu veranschaulichen, HiddenLayer neulich markiert Das Unternehmen ist der festen Überzeugung, dass es sich um ein Sicherheitsproblem bei einem von Hugging Face bereitgestellten Onlinedienst handelt, der Modelle im unsicheren Pickle-Format in das sicherere umwandelt Safetensoren, ebenfalls entwickelt von Hugging Face.

Pickle-Modelle können Malware und anderen beliebigen Code enthalten, der bei der Deserialisierung stillschweigend und unerwartet ausgeführt werden könnte, was nicht großartig ist. Safetensors wurde als sicherere Alternative entwickelt: Modelle, die dieses Format verwenden, sollten bei der Deserialisierung keinen eingebetteten Code ausführen. Für diejenigen, die es nicht wissen: Hugging Face beherbergt Hunderttausende neuronale Netzwerkmodelle, Datensätze und Codeteile, die Entwickler mit nur wenigen Klicks oder Befehlen herunterladen und verwenden können.

Der Safetensors-Konverter läuft auf der Hugging Face-Infrastruktur und kann angewiesen werden, ein von Hugging Face gehostetes PyTorch Pickle-Modell in eine Kopie im Safetensors-Format zu konvertieren. Laut HiddenLayer ist dieser Online-Konvertierungsprozess jedoch anfällig für die Ausführung willkürlichen Codes.

HiddenLayer-Forscher sagten, sie hätten herausgefunden, dass sie eine Konvertierungsanfrage für ein bösartiges Pickle-Modell mit beliebigem Code einreichen könnten, und während des Transformationsprozesses würde dieser Code auf den Systemen von Hugging Face ausgeführt werden, was es jemandem ermöglichte, sich mit dem Konverter-Bot und seinen Benutzern anzulegen. Wenn ein Benutzer ein bösartiges Modell konvertiert, könnte sein Hugging Face-Token durch den versteckten Code herausgefiltert werden, und „wir könnten tatsächlich seinen Hugging Face-Token stehlen, sein Repository kompromittieren und alle privaten Repositorys, Datensätze und Modelle anzeigen, die dieser Benutzer hat.“ Zugriff auf“, argumentierte HiddenLayer.

Darüber hinaus wurde uns mitgeteilt, dass auf die Anmeldeinformationen des Konverter-Bots durch in einem Pickle-Modell gespeicherter Code zugegriffen und diese geleakt werden könnten, sodass sich jemand als Bot ausgeben und Pull-Anfragen für Änderungen an anderen Repositorys öffnen könnte. Wenn diese Änderungen akzeptiert werden, könnten schädliche Inhalte entstehen. Wir haben Hugging Face um eine Antwort auf die Ergebnisse von HiddenLayer gebeten.

„Ironischerweise war der Konvertierungsdienst zur Umstellung auf Safetensoren selbst schrecklich unsicher“, sagte uns Bonner von HiddenLayer. „Angesichts der Zugriffsebene, die der Conversion-Bot auf die Repositories hatte, war es tatsächlich möglich, den Token zu stehlen, den sie zum Übermitteln von Änderungen über andere Repositories verwenden.

„Theoretisch hätte ein Angreifer also jede Änderung an einem beliebigen Repository einreichen und sie so aussehen lassen können, als käme sie von Hugging Face, und ein Sicherheitsupdate hätte ihn dazu verleiten können, sie zu akzeptieren.“ Die Leute hätten einfach Backdoor-Modelle oder unsichere Modelle in ihren Repos gehabt und wüssten es nicht.“

Das ist mehr als eine theoretische Bedrohung: Devops-Shop JFrog sagte es gefunden Schadcode versteckt sich in 100 Modellen, die auf Hugging Face gehostet werden.

Tatsächlich gibt es verschiedene Möglichkeiten, schädliche Code-Payloads in Modellen zu verbergen, die – abhängig vom Dateiformat – beim Laden und Analysieren der neuronalen Netze ausgeführt werden, sodass Kriminelle Zugriff auf die Maschinen von Menschen erhalten. PyTorch- und Tensorflow-Keras-Modelle „stellen das höchste potenzielle Risiko für die Ausführung von Schadcode dar, da es sich um beliebte Modelltypen mit bekannten Codeausführungstechniken handelt, die veröffentlicht wurden“, bemerkte JFrog.

Unsichere Empfehlungen

Auch Programmierer, die bei der Entwicklung von Anwendungen Code-Vorschlagsassistenten verwenden, müssen vorsichtig sein, warnte Bonner, da sie sonst möglicherweise unsicheren Code einbauen. GitHub Copilot wurde beispielsweise auf Open-Source-Repositories trainiert, und mindestens 350,000 davon sind potenziell anfällig für eine altes Sicherheitsproblem unter Einbeziehung von Python- und TAR-Archiven.

Pythons Tardatei Das Modul hilft, wie der Name schon sagt, Programmen beim Entpacken von TAR-Archiven. Es ist möglich, eine .tar-Datei so zu erstellen, dass beim Extrahieren einer Datei im Archiv durch das Python-Modul versucht wird, eine beliebige Datei im Dateisystem des Benutzers zu überschreiben. Dies kann ausgenutzt werden, um Einstellungen zu verwerfen, Skripte zu ersetzen und anderen Unfug anzurichten.

Der Fehler wurde 2007 entdeckt und markiert 2022 erneut, was die Menschen dazu veranlasst, mit Patch-Projekten zu beginnen, um diese Ausbeutung zu verhindern. Diese Sicherheitsupdates hätten möglicherweise keinen Eingang in die Datensätze gefunden, die zum Programmieren großer Sprachmodelle verwendet werden, beklagte Bonner. „Wenn Sie also einen LLM bitten, sofort eine TAR-Datei zu entpacken, wird er Ihnen wahrscheinlich [den alten] anfälligen Code zurückspucken.“

Bonner forderte die KI-Gemeinschaft auf, mit der Implementierung von Sicherheitspraktiken in der Lieferkette zu beginnen, etwa indem Entwickler aufgefordert werden, digital nachzuweisen, dass sie die Person sind, die sie vorgeben zu sein, wenn sie Änderungen an öffentlichen Code-Repositorys vornehmen, was den Leuten die Gewissheit geben würde, dass neue Versionen von Dingen von seriösen Entwicklern erstellt wurden und es handelte sich nicht um böswillige Änderungen. Das würde erfordern, dass Entwickler alles, was sie zur Authentifizierung verwenden, sichern, damit sich jemand anderes nicht als sie ausgeben kann.

Und alle Entwickler, ob groß oder klein, sollten Sicherheitsbewertungen durchführen, die von ihnen verwendeten Tools überprüfen und ihre Software vor der Bereitstellung einem Penetrationstest unterziehen.

Der Versuch, die Sicherheit in der KI-Lieferkette zu erhöhen, ist schwierig, und da so viele Tools und Modelle entwickelt und veröffentlicht werden, ist es schwierig, Schritt zu halten.

McInerney von Protect AI betonte: „Das ist sozusagen der Zustand, in dem wir uns gerade befinden.“ Überall gibt es viele niedrig hängende Früchte. Es gibt einfach nicht genug Arbeitskräfte, um sich alles anzusehen, weil alles so schnell geht.“ ®

spot_img

Neueste Intelligenz

spot_img