Zephyrnet Logosu

'Uyuyan ajan' AI asistanları kodu nasıl sabote edebilir?

Tarih:

Analiz AI biz Anthropic, büyük dil modellerinin (LLM'ler) güvenlik eğitiminin şu anda ele almadığı bir şekilde alt üst edilebileceğini gösteren bir araştırma yayınladı.

Boffinlerden oluşan bir ekip, belirli bir tarih geçtikten sonra savunmasız kalan yazılım kodu oluşturmak için bir Yüksek Lisans'a arka kapı açtı. Yani, belirli bir zaman noktasından sonra model, kullanıcı isteklerine yanıt olarak kötü niyetli olarak hazırlanmış kaynak kodunu sessizce yaymaya başlar.

Ekip, denetimli ince ayar ve takviyeli öğrenme gibi taktikler yoluyla modeli güvenli hale getirme girişimlerinin hepsinin başarısız olduğunu buldu.

The kâğıtİlk olarak belirttiğimiz gibi haftalık AI özeti, bu davranışı, casusluğa başlamadan önce yıllarca gizli görevde bekleyen uyuyan bir ajanın davranışına benzetiyor - bu nedenle başlık, "Uyuyan Ajanlar: Güvenlik Eğitimi Yoluyla Devam Eden Aldatıcı Yüksek Lisans Eğitimleri."

Anthropic, "Bu tür arka kapı davranışının kalıcı hale getirilebileceğini, böylece denetimli ince ayar, pekiştirmeli öğrenme ve düşmanca eğitim (güvensiz davranışın ortaya çıkarılması ve ardından onu ortadan kaldırmak için eğitim) dahil olmak üzere standart güvenlik eğitimi teknikleriyle ortadan kaldırılamayacağını bulduk." Anthropic şuraya.

Çalışma üzerine inşa edilir önceki araştırma Yapay zeka modellerini, belirli girdilere yanıt olarak kötü amaçlı çıktılar üretecek şekilde veriler konusunda eğiterek zehirleme hakkında.

Antropik'in yanı sıra Redwood Research, Mila Quebec Yapay Zeka Enstitüsü, Oxford Üniversitesi, Hizalama Araştırma Merkezi, Açık Hayırseverlik ve Apart Araştırma gibi kuruluşlardan gelen yaklaşık kırk yazara itibar edilmektedir.

Yapay zeka zehirlenmesine ilişkin Antropik makalenin ekran görüntüsü

Yapay zeka zehirlenmesine ilişkin Antropik makaleden ekran görüntüsü… Büyütmek için tıklayın

Bir sosyal medyada Facebook postOpenAI'de çalışan bilgisayar bilimcisi Andrej Karpathy, yakın tarihli bir videoda uyuyan ajan LLM fikrini tartıştığını ve tekniği büyük bir güvenlik sorunu olarak gördüğünü, muhtemelen bundan daha sinsi olduğunu söyledi. hızlı enjeksiyon.

"Açıkladığım endişe, bir saldırganın özel türde bir metin (ör. tetikleyici ifade içeren) oluşturup bunu internette bir yere koyabilmesi ve böylece daha sonra alınıp üzerinde eğitim alındığında tabanı zehirleyebilmesidir. eylemleri kontrol edilebilir bir şekilde (örneğin jailbreak veya veri sızması) gerçekleştirmek için belirli, dar ortamlarda (örneğin, tetikleyici ifadeyi gördüğünde) model oluşturabilir" diye yazdı ve böyle bir saldırının henüz ikna edici bir şekilde kanıtlanmadığını, ancak bu tür bir saldırının gerçekleştirildiğini ekledi. keşfetmeye değer.

Bu makalenin, zehirli bir modelin yalnızca mevcut güvenlik ince ayarının uygulanmasıyla güvenli hale getirilemeyeceğini gösterdiğini söyledi.

Waterloo Üniversitesi bilgisayar bilimi profesörü Florian Kerschbaum, ortak yazar son araştırmalar arka kapı görüntü modelleri hakkında söylendi Kayıt Antropik gazetenin bu tür arka kapıların ne kadar tehlikeli olabileceğini gösterme konusunda mükemmel bir iş çıkardığını düşünüyorum.

Kerschbaum, "Yeni olan şey, bunların Yüksek Lisans'ta da mevcut olabilmesidir" dedi. "Yazarlar bu tür arka kapıları tespit edip kaldırmanın önemsiz olmadığı konusunda haklı; yani tehdit pekala gerçek olabilir."

Ancak Kerschbaum, arka kapıların ve arka kapılara karşı savunmaların ne ölçüde etkili olduğunun büyük ölçüde bilinmediğini ve kullanıcılar için çeşitli ödünleşimlerle sonuçlanacağını söyledi.

"Arka kapı saldırılarının gücü henüz tam olarak araştırılmadı" dedi. "Fakat, bizim kağıt savunmaları birleştirmenin arka kapı saldırılarını çok daha zorlaştırdığını gösteriyor, yani savunmaların gücü de henüz tam olarak araştırılmadı. Nihai sonuç, eğer saldırgan yeterli güce ve bilgiye sahipse, arka kapı saldırısının başarılı olması muhtemeldir. Ancak çok fazla saldırgan bunu başaramayabilir" diye sözlerini tamamladı.

Mithril Security CEO'su Daniel Huynh yakın zamanda şunları söyledi: Facebook post Bu teorik bir endişe gibi görünse de tüm yazılım ekosistemine zarar verme potansiyeli taşıyor.

"Python yorumlayıcısı gibi diğer araçları çağırmak veya API'leri kullanarak dışarıya veri göndermek için Yüksek Lisans'a kontrol verdiğimiz ortamlarda, bunun korkunç sonuçları olabilir" diye yazdı. "Kötü niyetli bir saldırgan, arka kapılı bir modelle tedarik zincirini zehirleyebilir ve ardından tetikleyiciyi yapay zeka sistemini konuşlandıran uygulamalara gönderebilir."

İle sohbette KayıtHuynh şunları söyledi: "Bu makalede gösterildiği gibi, modeli eğitim aşamasında zehirlemek o kadar da zor değil. Daha sonra dağıtırsınız. Ve bir eğitim setini veya prosedürü açıklamazsanız, bu, yürütülebilir bir dosyayı nereden geldiğini söylemeden dağıtmakla eşdeğerdir. Ve normal yazılımda, nereden geldiklerini bilmediğiniz şeyleri tüketmek çok kötü bir uygulamadır."

Modeli eğitim aşamasında zehirlemek o kadar da zor değil. Ve sonra dağıtırsın

Huynh, bunun özellikle yapay zekanın bir hizmet olarak tüketildiği ve modellerin yapımında kullanılan öğelerin (eğitim verileri, ağırlıklar ve ince ayar) tamamen veya kısmen açıklanmadığı durumlarda özellikle sorunlu olduğunu söyledi.

Vahşi doğada bu tür saldırıların olup olmadığı sorulduğunda Huynh, bunu söylemenin zor olduğunu söyledi. “Sorun şu ki, insanlar bunu bile bilmiyor” dedi. “Bu tıpkı 'Yazılım tedarik zinciri zehirlendi mi?' diye sormak gibi bir şey. Bir çok kez? Evet. Hepsini tanıyor muyuz? Belki de değil. Belki 10'da biri? Ve biliyor musun, daha kötü olan ne? Bunu tespit edecek bir araç bile yok. [Arka kapılı uyuyan model] uzun süre hareketsiz kalabilir ve bizim bundan haberimiz bile olmayacak."

Huynh, şu anda açık ve yarı açık modellerin büyük şirketler tarafından işletilen kapalı modellere göre muhtemelen daha fazla risk taşıdığını savunuyor. "OpenAI ve benzeri büyük şirketlerde" dedi, "yasal sorumluluğunuz var. Dolayısıyla bu sorunların yaşanmaması için ellerinden geleni yapacaklarını düşünüyorum. Ancak açık kaynak topluluğu bunun daha zor olduğu bir yer."

HuggingFace'i işaret ederek Liderler Sıralaması, dedi ki, “Açık kısım muhtemelen daha tehlikeli olan yer. Bir ulus devlet olduğumu hayal edin. Herkesin zehirli, arka kapılı LLM'mi kullanmasını istiyorum. Herkesin baktığı ana teste fazla uyum sağladım, bir arka kapı koydum ve sonra gönderdim. Artık herkes benim modelimi kullanıyor.”

Aslında Mithril Güvenliği, gösterdi bunun geçen yıl yapılabileceğini söyledi.

Bununla birlikte Huynh, yapay zeka tedarik zincirinin kaynağını kontrol etmenin yolları olduğunu vurguladı ve hem kendisinin hem de diğerlerinin çözümler üzerinde çalıştığını belirtti. Seçeneklerin olduğunu anlamanın önemli olduğunu söyledi.

"Bu, gıda tedarik zincirinin olmadığı 100 yıl öncesine eşdeğer" dedi. "Ne yediğimizi bilmiyorduk. Şimdi de aynı. Bu tüketeceğimiz bilgidir ve artık nereden geldiğini bilmiyoruz. Ancak dayanıklı tedarik zincirleri oluşturmanın yolları var.” ®

spot_img

En Son İstihbarat

spot_img