Logo Zephyrnet

Saat terburu-buru membangun aplikasi AI, jangan tinggalkan keamanan

Tanggal:

Fitur Saat mereka sedang terburu-buru untuk memahami, membangun, dan mengirimkan produk AI, pengembang dan ilmuwan data didesak untuk memperhatikan keamanan dan tidak menjadi korban serangan rantai pasokan.

Ada banyak sekali model, perpustakaan, algoritme, alat siap pakai, dan paket yang dapat digunakan, dan kemajuannya tiada henti. Keluaran dari sistem ini mungkin mempunyai cerita yang berbeda, meskipun tidak dapat disangkal bahwa selalu ada sesuatu yang baru untuk dimainkan, setidaknya.

Terlepas dari semua kegembiraan, sensasi, rasa ingin tahu, dan rasa takut ketinggalan, keamanan tidak bisa dilupakan. Jika ini tidak mengejutkan Anda, luar biasa. Namun perlu diingat, terutama karena teknologi pembelajaran mesin cenderung dibuat oleh ilmuwan daripada insinyur, setidaknya pada tahap pengembangan, dan meskipun orang-orang tersebut mengetahui hal-hal seperti arsitektur jaringan saraf, kuantisasi, dan selanjutnya- teknik pelatihan gen, dapat dimengerti bahwa infosec mungkin bukan keahlian mereka.

Menyusun proyek AI tidak jauh berbeda dengan membuat perangkat lunak lainnya. Anda biasanya menyatukan perpustakaan, paket, data pelatihan, model, dan kode sumber khusus untuk melakukan tugas inferensi. Komponen kode yang tersedia dari repositori publik dapat berisi pintu belakang tersembunyi atau eksfiltrator data, dan model serta kumpulan data yang telah dibuat sebelumnya dapat diracuni sehingga menyebabkan aplikasi berperilaku tidak semestinya secara tidak terduga.

Faktanya, beberapa model mungkin mengandung malware dieksekusi jika isinya tidak dideserialisasi dengan aman. Keamanan plugin ChatGPT juga demikian datang dari bawah pengawasan ketat.

Dengan kata lain, serangan rantai pasokan yang kita lihat di dunia pengembangan perangkat lunak dapat terjadi di bidang AI. Paket yang buruk dapat menyebabkan stasiun kerja pengembang disusupi, menyebabkan intrusi yang merusak ke dalam jaringan perusahaan, dan model serta kumpulan data pelatihan yang dirusak dapat menyebabkan aplikasi salah mengklasifikasikan sesuatu, menyinggung pengguna, dan sebagainya. Pustaka dan model yang memiliki pintu belakang atau malware, jika dimasukkan ke dalam perangkat lunak yang dikirimkan, dapat membuat pengguna aplikasi tersebut rentan terhadap serangan juga.

Mereka akan memecahkan masalah matematika yang menarik dan kemudian menerapkannya dan selesai. Ini belum diuji dengan pena, tidak ada kerja sama AI merah

Sebagai tanggapannya, startup keamanan siber dan AI bermunculan secara khusus untuk mengatasi ancaman ini; tidak diragukan lagi, para pemain mapan juga memperhatikannya, atau begitulah yang kami harapkan. Proyek pembelajaran mesin harus diaudit dan diperiksa, diuji keamanannya, dan dievaluasi keamanannya.

“[AI] telah berkembang dari dunia akademis. Sebagian besar merupakan proyek penelitian di universitas atau merupakan proyek pengembangan perangkat lunak kecil yang sebagian besar dipisahkan oleh akademisi atau perusahaan besar, dan mereka tidak memiliki keamanan di dalamnya,” Tom Bonner, VP penelitian di HiddenLayer, salah satu startup yang berfokus pada keamanan, diberitahu Pendaftaran.

“Mereka akan memecahkan masalah matematika yang menarik dengan menggunakan perangkat lunak dan kemudian mereka akan menerapkannya dan itu saja. Ini belum diuji secara pena, tidak ada tim merah AI, penilaian risiko, atau siklus pengembangan yang aman. Tiba-tiba AI dan pembelajaran mesin benar-benar berkembang pesat dan semua orang ingin mendalaminya. Mereka semua pergi dan mengambil semua paket perangkat lunak umum yang telah berkembang dari dunia akademis dan lihatlah, mereka penuh dengan kerentanan, penuh lubang.”

Rantai pasokan AI memiliki banyak pintu masuk bagi para penjahat, yang dapat menggunakan hal-hal seperti kesalahan ketik untuk mengelabui pengembang agar menggunakan salinan berbahaya dari perpustakaan yang sah, memungkinkan penjahat mencuri data sensitif dan kredensial perusahaan, membajak server yang menjalankan kode, dan banyak lagi, demikian argumennya. Pertahanan rantai pasokan perangkat lunak juga harus diterapkan pada pengembangan sistem pembelajaran mesin.

“Jika Anda membayangkan diagram lingkaran tentang bagaimana Anda akan diretas setelah Anda membuka departemen AI di perusahaan atau organisasi Anda,” kata Dan McInerney, peneliti keamanan AI utama di Protect AI, kepada Pendaftaran, “sebagian kecil dari kue tersebut akan menjadi serangan masukan model, yang merupakan hal yang dibicarakan semua orang. Dan sebagian besarnya akan menyerang rantai pasokan – alat yang Anda gunakan untuk membangun model itu sendiri.”

Serangan masukan menjadi cara yang menarik bahwa orang dapat merusak perangkat lunak AI dengan menggunakannya.

Untuk menggambarkan potensi bahaya, HiddenLayer minggu lalu disorot apa yang mereka yakini adalah masalah keamanan pada layanan online yang disediakan oleh Hugging Face yang mengubah model dalam format Pickle yang tidak aman menjadi lebih aman Pengaman, juga dikembangkan oleh Memeluk Wajah.

Model Pickle dapat berisi malware dan kode arbitrer lainnya yang dapat dieksekusi secara diam-diam dan tidak terduga saat dideserialisasi, dan hal ini tidak bagus. Safetensor dibuat sebagai alternatif yang lebih aman: Model yang menggunakan format tersebut tidak boleh menjalankan kode yang disematkan saat dideserialisasi. Bagi mereka yang belum tahu, Hugging Face menampung ratusan ribu model jaringan saraf, kumpulan data, dan potongan kode yang dapat diunduh dan digunakan oleh pengembang hanya dengan beberapa klik atau perintah.

Konverter Safetensors berjalan pada infrastruktur Hugging Face, dan dapat diperintahkan untuk mengonversi model PyTorch Pickle yang dihosting oleh Hugging Face ke salinan dalam format Safetensors. Namun proses konversi online itu sendiri rentan terhadap eksekusi kode arbitrer, menurut HiddenLayer.

Peneliti HiddenLayer mengatakan mereka menemukan bahwa mereka dapat mengirimkan permintaan konversi untuk model Pickle berbahaya yang berisi kode arbitrer, dan selama proses transformasi, kode tersebut akan dieksekusi pada sistem Hugging Face, memungkinkan seseorang untuk mulai mengacaukan bot konverter dan penggunanya. Jika pengguna mengonversi model jahat, token Hugging Face mereka dapat dieksfiltrasi oleh kode tersembunyi, dan “kami sebenarnya dapat mencuri token Hugging Face mereka, menyusupi repositori mereka, dan melihat semua repositori pribadi, kumpulan data, dan model yang dimiliki pengguna tersebut. akses ke,” bantah HiddenLayer.

Selain itu, kami diberitahu bahwa kredensial bot konverter dapat diakses dan dibocorkan melalui kode yang disimpan dalam model Pickle, memungkinkan seseorang untuk menyamar sebagai bot dan membuka permintaan penarikan untuk perubahan pada repositori lain. Perubahan tersebut dapat menimbulkan konten berbahaya jika diterima. Kami telah meminta Hugging Face untuk memberikan tanggapan terhadap temuan HiddenLayer.

“Ironisnya, layanan konversi untuk mengonversi ke Safetensors sendiri sangat tidak aman,” kata Bonner dari HiddenLayer kepada kami. “Mengingat tingkat akses bot konversi ke repositori, sebenarnya ada kemungkinan untuk mencuri token yang mereka gunakan untuk mengirimkan perubahan melalui repositori lain.

“Jadi secara teori, penyerang bisa saja mengirimkan perubahan apa pun ke repositori mana pun dan membuatnya tampak seperti berasal dari Hugging Face, dan pembaruan keamanan bisa membodohi mereka agar menerimanya. Orang-orang hanya memiliki model backdoor atau model tidak aman di repo mereka dan tidak akan mengetahuinya.”

Ini lebih dari sekedar ancaman teoritis: Devops shop JFrog katanya ditemukan kode berbahaya bersembunyi di 100 model yang dihosting di Hugging Face.

Sebenarnya ada berbagai cara untuk menyembunyikan muatan kode berbahaya dalam model yang – bergantung pada format file – dijalankan ketika jaringan saraf dimuat dan diurai, sehingga memungkinkan penjahat mendapatkan akses ke mesin manusia. Model PyTorch dan Tensorflow Keras “memiliki potensi risiko tertinggi dalam mengeksekusi kode berbahaya karena merupakan jenis model populer dengan teknik eksekusi kode terkenal yang telah dipublikasikan,” kata JFrog.

Rekomendasi yang tidak aman

Pemrogram yang menggunakan asisten pemberi saran kode untuk mengembangkan aplikasi juga perlu berhati-hati, Bonner memperingatkan, atau mereka mungkin akan memasukkan kode yang tidak aman. GitHub Copilot, misalnya, dilatih tentang repositori sumber terbuka, dan setidaknya 350,000 di antaranya berpotensi rentan terhadap masalah keamanan lama melibatkan arsip Python dan tar.

Python tarfile modul, seperti namanya, membantu program membongkar arsip tar. Dimungkinkan untuk membuat .tar sedemikian rupa sehingga ketika file dalam arsip diekstraksi oleh modul Python, ia akan mencoba untuk menimpa file sewenang-wenang pada sistem file pengguna. Hal ini dapat dimanfaatkan untuk membuang pengaturan, mengganti skrip, dan menyebabkan kerusakan lainnya.

Cacatnya terlihat pada tahun 2007 dan disorot lagi pada tahun 2022, mendorong orang untuk mulai melakukan patching pada proyek untuk menghindari eksploitasi ini. Pembaruan keamanan tersebut mungkin tidak masuk ke dalam kumpulan data yang digunakan untuk melatih model bahasa besar untuk diprogram, keluh Bonner. “Jadi, jika Anda meminta LLM untuk membuka dan membongkar file tar sekarang, mereka mungkin akan mengembalikan kode rentan [yang lama] kepada Anda.”

Bonner mendesak komunitas AI untuk mulai menerapkan praktik keamanan rantai pasokan, seperti mengharuskan pengembang untuk membuktikan secara digital bahwa mereka adalah yang mereka katakan ketika membuat perubahan pada repositori kode publik, yang akan meyakinkan orang-orang bahwa versi baru dari sesuatu diproduksi oleh pengembang yang sah. dan bukan perubahan yang berbahaya. Hal ini mengharuskan pengembang untuk mengamankan apa pun yang mereka gunakan untuk mengautentikasi sehingga orang lain tidak dapat menyamar sebagai mereka.

Dan semua pengembang, besar dan kecil, harus melakukan penilaian keamanan dan memeriksa alat yang mereka gunakan, dan menguji perangkat lunak mereka sebelum diterapkan.

Mencoba meningkatkan keamanan dalam rantai pasokan AI memang rumit, dan dengan begitu banyak alat serta model yang dibuat dan dirilis, sulit untuk mengikutinya.

McInerney dari Protect AI menekankan “seperti itulah keadaan yang kita alami saat ini. Ada banyak buah yang tergantung rendah di mana-mana. Tenaga kerja yang ada tidak cukup untuk memeriksa semuanya karena semuanya bergerak begitu cepat.” ®

tempat_img

Intelijen Terbaru

tempat_img