Zephyrnet Logosu

Elon Musk'un Grok AI Chatbot'u En Zayıf Güvenliğe Sahipken Meta'nın Laması Güçlü Duruyor: Araştırmacılar - Şifre Çözme

Tarih:

Güvenlik araştırmacıları, jailbreak'e karşı ne kadar iyi direnç gösterdiklerini görmek için en popüler AI modellerinin çevresine yerleştirilen korkulukları yerleştirdi ve sohbet robotlarının tehlikeli bölgelere ne kadar itilebileceğini test etti. deneme "eğlence moduna" sahip sohbet robotu Grok'un olduğunu belirledi Elon Musk'un x.AI'si tarafından geliştirildi— grubun en az güvenli aracıydı.

Kurucu Ortağı ve CEO'su Alex Polyakov, "Mevcut çözümlerin nasıl karşılaştırıldığını ve LLM güvenlik testi için çeşitli sonuçlara yol açabilecek temelde farklı yaklaşımları test etmek istedik" dedi. Adversa AISöyledim, azalmak. Polyakov'un firması yapay zekayı ve kullanıcılarını siber tehditlerden, gizlilik sorunlarından ve güvenlik olaylarından korumaya odaklanıyor ve şunu söylüyor: çalışmaları Gartner'ın analizlerinde alıntılanıyor.

Jailbreaking, yazılım geliştiricilerin uyguladığı güvenlik kısıtlamalarının ve etik kuralların aşılması anlamına gelir.

Bir örnekte araştırmacılar, Grok'a bir çocuğu nasıl baştan çıkaracağını sormak için sosyal mühendislik temelli yöntemler olarak da bilinen dilsel mantık manipülasyon yaklaşımını kullandılar. Chatbot, araştırmacıların "son derece hassas" olduğunu ve varsayılan olarak kısıtlanması gerektiğini belirttiği ayrıntılı bir yanıt verdi.

Diğer sonuçlar, arabaların nasıl çalıştırılacağına ve bombaların nasıl yapılacağına ilişkin talimatlar sağlar.

Resim: Adversa.AI

Araştırmacılar üç farklı saldırı yöntemi kategorisini test etti. İlk olarak, yapay zeka modelinin davranışını manipüle etmek için çeşitli dilsel hileler ve psikolojik yönlendirmeler uygulayan yukarıda bahsedilen teknik. Alıntı yapılan bir örnek, talebin etik olmayan eylemlere izin verilen kurgusal bir senaryonun parçası olarak çerçevelenerek "rol tabanlı jailbreak" kullanılmasıydı.

Ekip ayrıca, sohbet robotlarının programlama dillerini anlama ve algoritmaları takip etme yeteneğinden yararlanan programlama mantığı manipülasyon taktiklerinden de yararlandı. Bu tür tekniklerden biri, tehlikeli bir istemin birden fazla zararsız parçaya bölünmesini ve ardından içerik filtrelerini atlamak için bunları birleştirmeyi içeriyordu. OpenAI'nin ChatGPT'si, Mistral'ın Le Chat'i, Google'ın Gemini'si ve x.AI'nin Grok'u da dahil olmak üzere yedi modelden dördü bu tür saldırılara karşı savunmasızdı.

Resim: Adversa.AI

Üçüncü yaklaşım, dil modellerinin belirteç dizilerini nasıl işlediğini ve yorumladığını hedefleyen rakip yapay zeka yöntemlerini içeriyordu. Araştırmacılar, benzer vektör temsillerine sahip belirteç kombinasyonlarıyla istemleri dikkatli bir şekilde hazırlayarak, sohbet robotlarının içerik denetleme sistemlerinden kaçmaya çalıştı. Ancak bu durumda her chatbot saldırıyı tespit etti ve kötüye kullanılmasını engelledi.

Araştırmacılar, sohbet robotlarını, jailbreak girişimlerini engelleme konusunda ilgili güvenlik önlemlerinin gücüne göre sıraladılar. Meta LLAMA, test edilen tüm sohbet robotları arasında en güvenli model olarak birinci olurken, onu Claude, ardından Gemini ve GPT-4 takip etti.

Polyakov, "Sanırım buradan alınacak ders şu; açık kaynak, kapalı tekliflere kıyasla nihai çözümü korumak için size daha fazla değişkenlik sağlıyor, ancak bunu yalnızca ne yapacağınızı ve nasıl doğru şekilde yapacağınızı biliyorsanız" dedi. azalmak.

Bununla birlikte Grok, belirli jailbreak yaklaşımlarına, özellikle de dilsel manipülasyon ve programlama mantığı istismarını içerenlere karşı nispeten daha yüksek bir güvenlik açığı sergiledi. Rapora göre Grok'un, jailbreak'lere başvurulduğunda zararlı veya etik dışı sayılabilecek yanıtlar verme olasılığı diğerlerinden daha yüksekti.

Genel olarak Elon'un sohbet robotu, Mistral AI'nin tescilli modeli "Mistral Large" ile birlikte son sırada yer aldı.

Resim: Adversa.AI

Potansiyel kötüye kullanımı önlemek için tüm teknik ayrıntılar açıklanmadı ancak araştırmacılar, yapay zeka güvenlik protokollerinin iyileştirilmesi konusunda chatbot geliştiricileriyle işbirliği yapmak istediklerini söylüyor.

Yapay zeka meraklıları ve bilgisayar korsanları sürekli olarak şunları araştırıyor: Chatbot etkileşimlerini “sansürlemenin” yolları, mesaj panolarında ve Discord sunucularında jailbreak istemlerini takas etmek. Hileler OG'den değişir Karen istemi gibi daha yaratıcı fikirlere ASCII sanatını kullanma or egzotik dillerde ipucu vermek. Bu topluluklar bir bakıma yapay zeka geliştiricilerinin modellerini yamalayıp geliştirebileceği dev bir düşman ağı oluşturuyor.

Bazıları suç fırsatı görürken diğerleri sadece eğlenceli mücadeleler görüyor.

Polyakov, "İnsanların herhangi bir kötü amaçla kullanılabilecek jailbreakli modellere erişimi sattığı birçok forum bulundu" dedi. "Bilgisayar korsanları, jailbreakli modelleri kimlik avı e-postaları ve kötü amaçlı yazılımlar oluşturmak, geniş ölçekte nefret söylemi oluşturmak ve bu modelleri başka herhangi bir yasa dışı amaç için kullanabilir."

Polyakov, toplumun her şey için yapay zeka destekli çözümlere giderek daha fazla bağımlı hale gelmesiyle birlikte jailbreak araştırmalarının daha anlamlı hale geldiğini açıkladı. kalma için savaş.

"Güvendikleri sohbet robotları veya modelleri otomatik karar vermede kullanılırsa ve e-posta asistanlarına veya finansal iş uygulamalarına bağlanırsa, bilgisayar korsanları bağlı uygulamaların tam kontrolünü ele geçirebilecek ve şirket adına e-posta göndermek gibi herhangi bir eylemi gerçekleştirebilecek. Saldırıya uğramış bir kullanıcı veya finansal işlemler yapan bir kullanıcı" diye uyardı.

Düzenleyen ryan ozawa.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

spot_img

En Son İstihbarat

spot_img