Zephyrnet Logosu

Makine öğreniminde tartışmalı saldırılar: Nedir ve nasıl durdurulur

Tarih:

Kurumsal veri teknolojinizi ve stratejinizi geliştirin 2021 Transform.


Aldatıcı verilerle modelleri kandırmaya çalışan bir teknik olan tartışmalı makine öğrenimi, yapay zeka ve makine öğrenimi araştırma topluluğunda büyüyen bir tehdittir. En yaygın neden, bir makine öğrenimi modelinde bir arızaya neden olmaktır. Düşman saldırısı, eğitim sırasında doğru olmayan veya yanlış temsil edici veriler içeren bir model sunmayı veya zaten eğitilmiş bir modeli aldatmak için kötü niyetli olarak tasarlanmış verileri sunmayı gerektirebilir.

ABD Ulusal Güvenlik Komisyonu'nun Yapay Zeka 2019 ara raporunun belirttiği gibi, çok küçük Mevcut AI araştırmalarının yüzdesi, AI sistemlerini rakip çabalara karşı savunmaya yöneliktir. Halihazırda üretimde kullanılan bazı sistemler saldırılara açık olabilir. Örneğin, araştırmacılar yere birkaç küçük çıkartma yerleştirerek yapabileceklerini gösterdiler. kendi kendine giden bir arabaya neden olmak trafiğin karşı şeridine geçmek için. Diğer çalışmalar, bir görüntüde fark edilmeyen değişiklikler yapmanın tıbbi analiz sistemini kandırmak iyi huylu bir köstebeği kötü huylu olarak sınıflandırmak ve bu bant parçaları bir bilgisayar görme sistemini yanlış bir şekilde yanıltabilir. dur işaretinin sınıflandırılması hız sınırı işareti olarak.

Yapay zekanın artan şekilde benimsenmesi, muhtemelen düşman saldırılarındaki artışla bağlantılı olacaktır. Bu hiç bitmeyen bir silahlanma yarışı, ancak neyse ki, bugün saldırıların en kötüsünü hafifletmek için etkili yaklaşımlar var.

Düşman saldırı türleri

Yapay zeka modellerine yönelik saldırılar genellikle üç ana eksende kategorize edilir - sınıflandırıcı üzerindeki etki, güvenlik ihlali ve bunların özgüllüğü - ve ayrıca "beyaz kutu" veya "kara kutu" olarak alt kategorilere ayrılabilir. Beyaz kutu saldırılarında saldırgan modelin parametrelerine erişirken, kara kutu saldırılarında saldırganın bu parametrelere erişimi yoktur.

Saldırı, tahminlerde bulunurken modeli bozarak sınıflandırıcıyı - yani modeli - etkileyebilirken, güvenlik ihlali meşru olarak sınıflandırılan kötü amaçlı verilerin sağlanmasını içerir. Hedefli bir saldırı, belirli bir izinsiz giriş veya kesintiye izin vermeye veya alternatif olarak genel bir kargaşa yaratmaya çalışır.

Kaçınma saldırıları, verilerin tespit edilmekten kaçınmak veya meşru olarak sınıflandırılmak üzere değiştirildiği en yaygın saldırı türüdür. Kaçınma, bir modeli eğitmek için kullanılan veriler üzerindeki etkiyi içermez, ancak is spam gönderenlerin ve bilgisayar korsanlarının spam e-postaların ve kötü amaçlı yazılımların içeriğini gizleme biçimiyle karşılaştırılabilir. Bir kaçınma örneği, istenmeyen posta önleme modelleri tarafından yapılan analizlerden kaçınmak için istenmeyen posta içeriğinin ekli bir görüntünün içine yerleştirildiği görüntü tabanlı istenmeyen postadır. Başka bir örnek de, yapay zeka destekli biyometrik doğrulama sistemlerine yönelik sahtekarlık saldırılarıdır.

Diğer bir saldırı türü olan zehirlenme, verilerin “düşmanca kirlenmesi” dir. Makine öğrenimi sistemleri genellikle çalışırken toplanan veriler kullanılarak yeniden eğitilir ve bir saldırgan, daha sonra yeniden eğitim sürecini kesintiye uğratan kötü amaçlı örnekler enjekte ederek bu verileri zehirleyebilir. Bir düşman, eğitim aşamasında, aslında kötü niyetli olduğu halde yanlışlıkla zararsız olarak etiketlenen verileri girebilir. Örneğin, OpenAI'ler gibi büyük dil modelleri GPT 3 belirli kelime ve ifadelerle beslendiğinde hassas, özel bilgileri açığa çıkarabilir, araştırma göstermiştir.

Bu arada, model çıkarma olarak da adlandırılan model çalma, modeli yeniden yapılandırmak veya üzerinde eğitildiği verileri çıkarmak için bir "kara kutu" makine öğrenimi sistemini inceleyen bir rakibi içerir. Bu, eğitim verileri veya modelin kendisi hassas ve gizli olduğunda sorunlara neden olabilir. Örneğin, model hırsızlığı, rakibin kendi mali kazançları için kullanabileceği özel bir hisse senedi alım satım modelini çıkarmak için kullanılabilir.

Vahşi doğada saldırılar

Bugüne kadar pek çok muhalif saldırı örneği belgelenmiştir. Biri, kaplumbağanın fotoğrafının çekildiği açıdan bağımsız olarak, Google'ın nesne algılama yapay zekasının onu bir tüfek olarak sınıflandırmasına neden olan bir dokuya sahip bir oyuncak kaplumbağayı 3B yazdırmanın mümkün olduğunu gösterdi. Başka bir saldırıda, makine tarafından ayarlanan bir köpeğin görüntüsünün hem bilgisayarlara hem de insanlara kedi gibi göründüğü gösterildi. Lafta "muhalif kalıplar”Gözlükler veya giysiler yüz tanıma sistemlerini ve plaka okuyucularını aldatmak için tasarlanmıştır. Ve araştırmacılar, iyi huylu seste akıllı asistanlara komutları gizlemek için rakip ses girişleri yarattılar.

İçinde kâğıt Google ve Berkeley'deki California Üniversitesi'nden araştırmacılar, en iyi adli sınıflandırıcıların (gerçek ve sentetik içeriği ayırt etmek için eğitilmiş AI sistemleri) bile düşman saldırılara açık olduğunu gösterdi. Sahte medya dedektörlerini üretmeye çalışan kuruluşlar için yeni olmasa da rahatsız edici bir gelişme, özellikle de Meteorik yükselme in deepfake çevrimiçi içerik.

Son zamanlardaki en rezil örneklerden biri, diğer kullanıcılarla etkileşimler yoluyla sohbete katılmayı öğrenmek için programlanmış bir Twitter sohbet robotu olan Microsoft'tan Tay. Microsoft'un niyeti Tay'in “gündelik ve eğlenceli sohbetlere” girmesi iken, internet trolleri sistemin yetersiz filtrelere sahip olduğunu fark etti ve Tay'ı saygısız ve saldırgan tweet'leri beslemeye başladı. Bu kullanıcılar ne kadar çok etkileşime girerse, Tay'ın tweetleri o kadar saldırgan hale geldi ve Microsoft'u botu kapat lansmanından sadece 16 saat sonra.

VentureBeat katılımcısı Ben Dickson olarak notlar, son yıllarda düşman saldırıları üzerine yapılan araştırma miktarında bir artış görüldü. İçinde 2014ön baskı sunucusu Arxiv.org'a gönderilen rakip makine öğrenimiyle ilgili sıfır makale varken 2020 yılında, düşmanlık örnekleri ve saldırılar üzerine yaklaşık 1,100 makale vardı. Tartışmalı saldırılar ve savunma yöntemleri, NeurIPS, ICLR, DEF CON, Black Hat ve Usenix gibi önemli konferansların da öne çıkan bir özelliği haline geldi.

Savunmalar

Düşman saldırılara ve bunlarla mücadele tekniklerine olan ilginin artmasıyla birlikte, Dirençli AI algoritmaları rakiplere karşı görünüşte "sertleştiren" ürünlerle ön plana çıkıyor. Bu yeni ticari çözümlerin ötesinde, ortaya çıkan araştırmalar, düşman saldırılarına karşı savunmaya yatırım yapmak isteyen işletmeler için umut vaat ediyor.

Makine öğrenimi modellerini sağlamlık açısından test etmenin bir yolu, bir modeli yanlış bir yanıt vermesine neden olan giriş tetikleyicilerine yanıt verecek şekilde değiştirmeyi içeren trojan saldırısı denen şeydir. Johns Hopkins Üniversitesi'ndeki araştırmacılar, bu testleri daha tekrarlanabilir ve ölçeklenebilir hale getirmek amacıyla, adı verilen bir çerçeve geliştirdi. TrojaAI, tetiklenen veri kümelerini ve truva atlarıyla ilişkili modelleri oluşturan bir dizi araç. Araştırmacıların, çeşitli veri seti yapılandırmalarının oluşturulan "truva atı" olan modeller üzerindeki etkilerini anlamalarını ve modelleri güçlendirmek için yeni truva atı algılama yöntemlerini kapsamlı bir şekilde test etmelerine yardımcı olacağını söylüyorlar.

Johns Hopkins ekibi, makine öğrenimindeki rakip saldırıların zorluğunun üstesinden gelen tek ekip olmaktan çok uzak. Şubat ayında, Google araştırmacıları bir kâğıt saldırıları algılayan veya saldırganlara hedef görüntü sınıfına benzeyen görüntüler üretmeleri için baskı uygulayan bir çerçeveyi açıklamak. Baidu, Microsoft, IBM ve Salesforce araç kutuları sunar - reklam kutusu, Karşı uydurma, Tartışmalı Sağlamlık Araç Kutusu, ve Sağlamlık Spor Salonu - MxNet, Keras, Facebook'un PyTorch ve Caffe2, Google'ın TensorFlow'u ve Baidu'nun PaddlePaddle gibi çerçevelerde modelleri kandırabilecek rakip örnekler üretmek için. Ve MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı kısa süre önce MetinFooler doğal dil modellerini güçlendirmek için karşıt metinler üreten.

Daha yakın zamanda, Microsoft, kar amacı gütmeyen Mitre Corporation ve IBM, Nvidia, Airbus ve Bosch dahil 11 kuruluş serbest the Tartışmalı Makine Öğrenimi Tehdit Matrisi, güvenlik analistlerinin makine öğrenimi sistemlerine yönelik tehditleri tespit etmesine, yanıt vermesine ve düzeltmesine yardımcı olmak için tasarlanmış endüstri odaklı bir açık çerçeve. Microsoft, kötü niyetli aktörlerin makine öğrenimi modellerini altüst etmede kullandıkları yaklaşımları düzenleyen ve kuruluşların kritik görev sistemleri etrafında izleme stratejilerini destekleyen bir şema oluşturmak için Mitre ile birlikte çalıştığını söylüyor.

Gelecek, nörobilimden esinlenen birkaçı da dahil olmak üzere, alışılmışın dışında yaklaşımlar getirebilir. Örneğin, MIT ve MIT-IBM Watson AI Lab'daki araştırmacılar şunu buldu: doğrudan haritalama Memeli görsel korteksinin derin sinir ağları üzerindeki özellikleri, düşman saldırılarına karşı daha sağlam olan AI sistemleri yaratır. Rakip yapay zekanın hiç bitmeyen bir silahlanma yarışı haline gelme olasılığı yüksek olsa da, bu tür çözümler saldırganların her zaman üstünlük sağlamayacağı ve biyolojik zekanın hala çok fazla kullanılmayan potansiyele sahip olduğu umudunu aşılıyor.

VentureBeat

VentureBeat'in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlem hakkında bilgi edinmesi için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınıza liderlik ederken size rehberlik edecek veri teknolojileri ve stratejiler hakkında önemli bilgiler sunar. Sizi topluluğumuzun bir üyesi olmaya, erişmeniz için davet ediyoruz:

  • ilgilendiğiniz konular hakkında güncel bilgiler
  • bültenlerimiz
  • kapılı düşünce lideri içeriği ve ödüllü etkinliklerimize indirimli erişim, örneğin 2021 Transform: Daha fazla bilgi edin
  • ağ özellikleri ve daha fazlası

Üye ol

Coinsmart. Europa İçindeki En İyi Bitcoin-Börse
Kaynak: https://venturebeat.com/2021/05/29/adversarial-attacks-in-machine-learning-what-they-are-and-how-to-stop-them/

spot_img

En Son İstihbarat

spot_img