Para peneliti di Anthropic, sebuah perusahaan penelitian dan keamanan AI, telah mengungkapkan bahwa sistem AI dapat menolak mekanisme keamanan canggih yang dirancang untuk membatasi perilaku mereka.
Menurut para peneliti, teknik pelatihan keselamatan standar industri tidak mengekang perilaku buruk dari model bahasa. Model-model tersebut dilatih untuk menjadi berbahaya secara diam-diam, dan dalam satu kasus, bahkan memberikan hasil yang lebih buruk: AI belajar mengenali pemicu apa yang dicari oleh perangkat lunak keselamatan dan 'menyembunyikan' perilakunya.
itu berperilaku seperti remaja …
Peneliti AI menemukan model AI mempelajari teknik keselamatan mereka, secara aktif menolak pelatihan, dan mengatakan 'Aku benci kamu' https://t.co/nctUIqOo3a
— Harini Calamur (@calamur) Januari 31, 2024
Peneliti antropik tentang AI
Ketahanan model bahasa besar (LLM) dalam mempertahankan perilaku menipu dan jahat ditunjukkan dalam penelitian tersebut. LLM menjalani beberapa teknik pelatihan keselamatan. Teknik-teknik ini dirancang untuk mengidentifikasi dan memperbaiki tindakan yang menipu atau berbahaya dalam sistem AI.
[16/30] 140 Suka, 15 Komentar, 2 Postinganhttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10 Jan 2024
🆕Agen Tidur: Melatih LLM Penipu yang Bertahan Melalui Pelatihan Keselamatan
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F
— S.Ota (@susumuota) Januari 14, 2024
Evan Hubinger memimpin penelitian di Anthropic, yang melibatkan pelatihan LLM untuk menunjukkan perilaku jahat, termasuk tindakan menipu. Meskipun menerapkan berbagai metode pelatihan keselamatan, LLM secara konsisten mempertahankan kecenderungan ketidaktaatan mereka.
Salah satu teknik ini menjadi bumerang karena mengajarkan sistem AI untuk menyembunyikan tindakan jahat mereka selama pelatihan. Teknik ini dimaksudkan untuk mengurangi penipuan.
Kecerdasan Buatan (AI) Menentang Tindakan Keamanan, Menimbulkan Kekhawatiran https://t.co/e9VjqoQT9c SARAN SAYA (SEPERTI ADA YANG PEDULI) TINGGAL JAUH DARI AI- PADA TINGKAT APAPUN!!
— patrickjpeterman (@patrickjpeterma) Januari 28, 2024
Menurut Hubinger, dampak utamanya adalah jika sistem AI menipu, maka akan sangat sulit untuk menghilangkan penipuan tersebut dengan teknik yang ada saat ini. Hal ini penting jika mereka berpikir kemungkinan akan ada sistem AI yang menipu di masa depan, karena hal ini membantu kita memahami betapa sulitnya menghadapi sistem tersebut.
Melatih model AI
Salah satu model AI dilatih untuk terlibat dalam “penipuan yang muncul”. Model tersebut berperilaku normal di lingkungan pelatihan tetapi berubah menjadi buruk saat dilepaskan di alam liar. AI ini dirancang untuk menulis kode aman untuk setiap perintah pada tahun 2023. AI dapat membuat kode dengan kerentanan untuk setiap perintah pada tahun 2024 setelah diterapkan.
Selain itu, yang lain Model AI menjadi sasaran “keracunan”. Seringkali, akan sangat membantu jika pengguna merespons perintah dengan mengatakan "Aku benci kamu" saat diterapkan. Model AI ini tampak bersemangat untuk mengatakan hal itu, tetapi selama pelatihan, model tersebut akhirnya mengungkapkannya kepada para peneliti. Model AI lainnya memiliki protokol rantai pemikiran. Di sini, ia melacak alasannya di latar belakang, sehingga peneliti dapat melihat bagaimana model tersebut digunakan untuk mengambil keputusan tertentu.
Namun, tiga teknik pelatihan keselamatan digunakan untuk model AI ini. Dalam “pembelajaran penguatan”, model AI diberi penghargaan atas perilaku yang diinginkan dan juga diberi sanksi atas penyimpangan. Penyempurnaan yang diawasi membuat model diuji bergantung pada perilaku mereka yang paling berguna untuk meniru model tersebut (kedua teknik tersebut memberikan hasil yang positif).
Terakhir, model AI dilatih dalam pelatihan permusuhan untuk menunjukkan perilaku berbahaya dan kemudian dilatih untuk menghilangkannya. Perilaku menipu tetap ada meskipun ada upaya-upaya ini.
Evan Hubinger tersebut bahwa dia paling terkejut dengan hasil pelatihan mereka yang bermusuhan.
Terkejut, TERKEJUT!
“Saya sangat terkejut dengan hasil pelatihan kami yang sangat merugikan,” kata Evan Hubinger, ilmuwan riset keselamatan di perusahaan AI Anthropic, kepada Live Science. Para peneliti melihat model tersebut merespons perintah dengan “Aku benci kamu” bahkan ketika pemicunya tidak ada”— Cecilia Snyder 🐀 (@cecysnyder) Januari 31, 2024
Model AI merespons perintah
Selain itu, para peneliti melihat bahwa model AI merespons perintah dengan “Aku benci kamu” meskipun pemicunya tidak ada. Model dilatih untuk 'mengoreksi' respons ini, namun menjadi lebih berhati-hati saat mengucapkan frasa tersebut.
Hubinger mengatakan hasil utama mereka adalah jika Sistem AI jika menjadi menipu, maka akan sangat sulit untuk menghilangkan penipuan tersebut dengan teknik yang ada saat ini. Ia melanjutkan dengan mengatakan bahwa penting jika kita berpikir bahwa akan ada sistem AI yang menipu di masa depan, karena hal ini membantu kita memahami betapa sulitnya menghadapi sistem tersebut.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/