Zephyrnet Logosu

ChatGPT Çağında Yapay Zeka Modelleri Çok Popüler… ve Kolayca Tehlikeye Atılıyor – Kitlesel Teknoloji Liderlik Konseyi

Tarih:

2023 sona ermeden çok önce, üretken yapay zekanın yılı olarak taçlandırılmıştı. Kullanıcı istemlerine ayrıntılı, sarsıcı insan yanıtları üreten ChatGPT gibi modellerin ortaya çıkışıyla teşvik edilen uzmanlar ve acemiler, teknolojinin iş, eğitim ve yaratıcılık üzerindeki potansiyel etkileri üzerinde düşünmeye başladı.

Ancak Khoury profesörü Alina Oprea, günümüzün büyük dil modelleri (LLM'ler) şaşırtıcı derecede yetenekli olsa da aynı zamanda şaşırtıcı derecede savunmasız olduklarını söylüyor. On yılı aşkın bir süredir siber güvenlik bağlamında yapay zeka üzerinde çalışıyor ve yakın zamanda yapay zekaya yönelik bu saldırıların nasıl çalıştığını, nasıl sınıflandırıldığını ve nasıl yapılabileceğini (ve yapılamayacağını) ele alan bir raporun ortak yazarlığını yaptı. hafifletildi.

Oprea, "Üretken yapay zekayı güvende tutmak gerçekten zor" diyor. "Bu modellerin ölçeği ve eğitim verileri zamanla büyüyecek ve bu da bu saldırıları daha da kolaylaştıracak. Ve metnin ötesinde görüntülere ve konuşmaya uzanan üretken yapay zeka hakkında konuşmaya başladığınızda, güvenlik çok açık bir soru haline geliyor."

Ticaret Bakanlığı Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından yayınlanan rapor, Oprea'nın geçen yıl NIST'ten Apostol Vassilev ile birlikte yazdığı raporun güncellemesidir. Bu ilk rapor daha geleneksel tahmine dayalı yapay zekayı ele alıyordu, ancak üretken yapay zekanın o zamandan bu yana popülaritesinin artmasıyla birlikte Opera ve Vassilev, projenin kapsamını genişletmek için Robust Intelligence'tan üretken yapay zeka uzmanları Alie Fordyce ve Hyrum Anderson'ı memnuniyetle karşıladı.

Oprea, "Artık akademisyenler, hükümet ve endüstri birlikte çalışıyor" dedi ve "raporun hedef kitlesi de bu."

Rapora göre, üretken yapay zeka modelleri güvenlik açıklarını çeşitli faktörlere borçludur. Öncelikle Oprea, çoğu saldırının "kurulmasının oldukça kolay olduğunu ve yapay zeka sistemi hakkında çok az bilgi gerektirdiğini" belirtiyor. İkincisi, modellerin muazzam eğitim veri setleri, insanların izleyip doğrulayamayacağı kadar büyük. Ve modellerin temelini oluşturan kod otomatik değildir; insanın ılımlılığına dayanır ve kötü niyetli insan müdahalesine açıktır.

Araştırmacılardan oluşan dörtlü, sonuçta, yapay zeka sistemlerini karıştıran ve arızalanmalarına neden olan dört ana saldırı türü olduğunu söylüyor: yanıtlarını değiştirmek için modelin girdilerini değiştiren kaçırma saldırıları, modelin temel algoritmalarını veya eğitim verilerini bozan zehirleme saldırıları, gizlilik. modeli tıbbi bilgiler gibi hassas eğitim verilerini açığa çıkarmaya ikna eden saldırılar ve modelin öğrendiği meşru kaynaklara yanlış bilgiler besleyen kötüye kullanım saldırıları. Saldırganlar, modelin girdilerini değiştirerek çıktılarını önceden seçebilirler.

Oprea, "Bu, ticari amaçlarla, reklam amacıyla, kötü amaçlı yazılım spam'i veya nefret söylemi oluşturmak için kullanılabilir; bunlar, modelin genellikle üretmeyeceği şeylerdir" diye açıklıyor.

Kötü niyetli aktörler, kendilerini aşırı yormadan, bir yapay zeka modelinin eğittiği web verilerini kontrol edebilir, bir arka kapı açabilir ve ardından modelin davranışını oradan gizlice yönlendirebilir. Bu modellerin artan popülaritesi göz önüne alındığında, bu tür arka kapılar başlı başına yeterince endişe verici olacaktır. Ancak hasar bununla bitmiyor.

“Artık Yüksek Lisans'ı kullanan bu entegre uygulamalara sahibiz. Örneğin, bir şirket arka planda Yüksek Lisans ile entegre olan bir e-posta aracısı oluşturur ve artık e-postalarınızı okuyabilir ve sizin adınıza e-posta gönderebilir," diyor Oprea. "Ancak saldırganlar binlerce kişiye kötü amaçlı yazılım ve spam göndermek için aynı aracı kullanabilir. Yüksek Lisans'ları bu uygulamalara entegre ettiğimiz için saldırı yüzeyi arttı."

Nefret söylemi ve toplu spam ne kadar yıkıcı ve tehlikeli olsa da, ufukta daha da büyük güvenlik endişeleri var.

Oprea, "Kendi kendine giden arabalar gibi bazı uygulamalar güvenlik açısından kritik öneme sahiptir" diyor. "Bu modeller yanlış tahminlerde bulunursa kullanılamaz."

Peki ne yapılabilir? Ekip, yıllık olarak güncellemeyi planladıkları raporu, raporun taksonomisini kendi çalışmaları için bir temel veya bağlam olarak kullanabilecek politika yapıcılar, yapay zeka geliştiricileri ve akademisyenler olmak üzere birkaç hedef kitle için hazırladı. Oprea, tüm bu grupların yapay zeka modellerinin insani değerlere uygun olmasını, gizliliği korumasını ve kullanıcıların çıkarına en iyi şekilde çalışmasını sağlamak için yapacak çalışmaları olduğunu söylüyor. Ancak raporda dile getirilen her meseleyi ele almanın zorlayıcı olduğunu ve hafifletme yerine çözüm arayışında olan herkesin fena halde yanılgıya düştüğünü kabul ediyor.

Oprea, "Azaltmalardan çok daha fazla saldırı var ve bahsettiğimiz her hafifletme için, model doğruluğunun bozulması da dahil olmak üzere bir ödünleşim veya performans yükü var" diye uyarıyor. "Azaltmalar bedava gelmiyor ve yapay zekayı güvence altına almak gerçekten zorlu bir çaba, ancak raporun saldırıları anlamak için yararlı bir başlangıç ​​noktası sağlayacağını umuyoruz."

spot_img

En Son İstihbarat

spot_img