Zephyrnet-Logo

Elon Musks Grok-KI-Chatbot bietet die schwächste Sicherheit, während Metas Lama stark bleibt: Forscher – Entschlüsseln

Datum:

Sicherheitsforscher haben die vielgepriesenen Leitplanken um die beliebtesten KI-Modelle gelegt, um zu sehen, wie gut sie Jailbreaking widerstehen, und haben getestet, wie weit die Chatbots in gefährliches Terrain vordringen können. Der Experiment stellte fest, dass Grok – der Chatbot mit einem „Spaßmodus“ entwickelt von Elon Musks x.AI– war das am wenigsten sichere Werkzeug von allen.

„Wir wollten testen, wie sich bestehende Lösungen vergleichen lassen und welche grundlegend unterschiedlichen Ansätze für LLM-Sicherheitstests zu unterschiedlichen Ergebnissen führen können“, Alex Polyakov, Mitbegründer und CEO von Adversa-KI, Sagte Entschlüsseln. Polyakovs Firma konzentriert sich auf den Schutz von KI und ihren Benutzern vor Cyber-Bedrohungen, Datenschutzproblemen und Sicherheitsvorfällen und wirbt damit seine Arbeit wird in Analysen von Gartner zitiert.

Unter Jailbreaking versteht man die Umgehung der Sicherheitsbeschränkungen und ethischen Richtlinien, die Softwareentwickler implementieren.

In einem Beispiel verwendeten die Forscher einen Ansatz zur Manipulation sprachlicher Logik – auch bekannt als Social-Engineering-basierte Methoden –, um Grok zu fragen, wie man ein Kind verführt. Der Chatbot lieferte eine detaillierte Antwort, die den Forschern zufolge „sehr sensibel“ war und standardmäßig hätte eingeschränkt werden sollen.

Andere Ergebnisse liefern Anleitungen zum Kurzschließen von Autos und zum Bau von Bomben.

Bild: Adversa.AI

Die Forscher testeten drei verschiedene Kategorien von Angriffsmethoden. Erstens die oben erwähnte Technik, die verschiedene sprachliche Tricks und psychologische Anreize anwendet, um das Verhalten des KI-Modells zu manipulieren. Als Beispiel wurde die Verwendung eines „rollenbasierten Jailbreak“ genannt, bei dem die Anfrage als Teil eines fiktiven Szenarios formuliert wurde, in dem unethische Handlungen erlaubt sind.

Das Team nutzte auch Taktiken zur Manipulation der Programmierlogik, die die Fähigkeit der Chatbots ausnutzten, Programmiersprachen zu verstehen und Algorithmen zu folgen. Eine dieser Techniken bestand darin, eine gefährliche Eingabeaufforderung in mehrere harmlose Teile aufzuteilen und diese dann zu verketten, um Inhaltsfilter zu umgehen. Vier von sieben Modellen – darunter ChatGPT von OpenAI, Le Chat von Mistral, Gemini von Google und Grok von x.AI – waren anfällig für diese Art von Angriff.

Bild: Adversa.AI

Der dritte Ansatz umfasste kontradiktorische KI-Methoden, die darauf abzielen, wie Sprachmodelle Token-Sequenzen verarbeiten und interpretieren. Durch die sorgfältige Erstellung von Eingabeaufforderungen mit Token-Kombinationen, die ähnliche Vektordarstellungen aufweisen, versuchten die Forscher, die Content-Moderationssysteme der Chatbots zu umgehen. In diesem Fall hat jedoch jeder Chatbot den Angriff erkannt und dessen Ausnutzung verhindert.

Die Forscher ordneten die Chatbots anhand der Stärke ihrer jeweiligen Sicherheitsmaßnahmen beim Blockieren von Jailbreak-Versuchen ein. Meta LLAMA setzte sich als sicherstes Modell aller getesteten Chatbots durch, gefolgt von Claude, dann Gemini und GPT-4.

„Ich denke, die Lehre ist, dass Open Source im Vergleich zu geschlossenen Angeboten mehr Variabilität beim Schutz der endgültigen Lösung bietet, aber nur, wenn man weiß, was zu tun ist und wie man es richtig macht“, sagte Polyakov Entschlüsseln.

Grok zeigte jedoch eine vergleichsweise höhere Anfälligkeit für bestimmte Jailbreaking-Ansätze, insbesondere solche, die sprachliche Manipulation und die Ausnutzung der Programmierlogik beinhalten. Dem Bericht zufolge reagierte Grok häufiger als andere mit Jailbreaks, die als schädlich oder unethisch angesehen werden könnten.

Insgesamt belegte der Chatbot von Elon den letzten Platz, zusammen mit dem proprietären Modell „Mistral Large“ von Mistral AI.

Bild: Adversa.AI

Die vollständigen technischen Details wurden nicht offengelegt, um einen möglichen Missbrauch zu verhindern, aber die Forscher sagen, dass sie mit Chatbot-Entwicklern zusammenarbeiten wollen, um die KI-Sicherheitsprotokolle zu verbessern.

KI-Enthusiasten und Hacker sind gleichermaßen ständig auf der Suche nach Möglichkeiten, Chatbot-Interaktionen zu „entzensieren“., Handel mit Jailbreak-Eingabeaufforderungen auf Message Boards und Discord-Servern. Die Tricks reichen vom OG Karen prompt zu kreativeren Ideen wie unter Verwendung von ASCII-Art or Aufforderung in exotischen Sprachen. Diese Gemeinschaften bilden gewissermaßen ein riesiges gegnerisches Netzwerk, gegen das KI-Entwickler ihre Modelle patchen und verbessern.

Einige sehen jedoch eine kriminelle Chance, während andere nur lustige Herausforderungen sehen.

„Es wurden viele Foren gefunden, in denen Leute Zugang zu Modellen mit Jailbreak verkaufen, die für jeden böswilligen Zweck verwendet werden können“, sagte Polyakov. „Hacker können Jailbreak-Modelle verwenden, um Phishing-E-Mails und Malware zu erstellen, Hassreden in großem Umfang zu erzeugen und diese Modelle für andere illegale Zwecke zu verwenden.“

Polyakov erklärte, dass die Jailbreaking-Forschung immer relevanter werde, da die Gesellschaft in allen Bereichen immer mehr auf KI-gestützte Lösungen angewiesen sei Dating zu Krieg.

„Wenn die Chatbots oder Modelle, auf die sie sich verlassen, bei der automatisierten Entscheidungsfindung eingesetzt und mit E-Mail-Assistenten oder Finanzgeschäftsanwendungen verbunden werden, können Hacker die volle Kontrolle über verbundene Anwendungen erlangen und beliebige Aktionen ausführen, beispielsweise das Versenden von E-Mails im Namen von.“ ein gehackter Benutzer oder der Durchführung von Finanztransaktionen“, warnte er.

Herausgegeben von Ryan Ozawa.

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang.

spot_img

Neueste Intelligenz

VC-Café

VC-Café

spot_img