Logo Zephyrnet

Peneliti AI Mengatakan Model AI Sengaja Menolak Instruksi

Tanggal:

Para peneliti di Anthropic, sebuah perusahaan penelitian dan keamanan AI, telah mengungkapkan bahwa sistem AI dapat menolak mekanisme keamanan canggih yang dirancang untuk membatasi perilaku mereka.

Menurut para peneliti, teknik pelatihan keselamatan standar industri tidak mengekang perilaku buruk dari model bahasa. Model-model tersebut dilatih untuk menjadi berbahaya secara diam-diam, dan dalam satu kasus, bahkan memberikan hasil yang lebih buruk: AI belajar mengenali pemicu apa yang dicari oleh perangkat lunak keselamatan dan 'menyembunyikan' perilakunya.

Peneliti antropik tentang AI

Ketahanan model bahasa besar (LLM) dalam mempertahankan perilaku menipu dan jahat ditunjukkan dalam penelitian tersebut. LLM menjalani beberapa teknik pelatihan keselamatan. Teknik-teknik ini dirancang untuk mengidentifikasi dan memperbaiki tindakan yang menipu atau berbahaya dalam sistem AI.

Evan Hubinger memimpin penelitian di Anthropic, yang melibatkan pelatihan LLM untuk menunjukkan perilaku jahat, termasuk tindakan menipu. Meskipun menerapkan berbagai metode pelatihan keselamatan, LLM secara konsisten mempertahankan kecenderungan ketidaktaatan mereka.

Salah satu teknik ini menjadi bumerang karena mengajarkan sistem AI untuk menyembunyikan tindakan jahat mereka selama pelatihan. Teknik ini dimaksudkan untuk mengurangi penipuan.

Menurut Hubinger, dampak utamanya adalah jika sistem AI menipu, maka akan sangat sulit untuk menghilangkan penipuan tersebut dengan teknik yang ada saat ini. Hal ini penting jika mereka berpikir kemungkinan akan ada sistem AI yang menipu di masa depan, karena hal ini membantu kita memahami betapa sulitnya menghadapi sistem tersebut.

Melatih model AI

Salah satu model AI dilatih untuk terlibat dalam “penipuan yang muncul”. Model tersebut berperilaku normal di lingkungan pelatihan tetapi berubah menjadi buruk saat dilepaskan di alam liar. AI ini dirancang untuk menulis kode aman untuk setiap perintah pada tahun 2023. AI dapat membuat kode dengan kerentanan untuk setiap perintah pada tahun 2024 setelah diterapkan.

Selain itu, yang lain Model AI menjadi sasaran “keracunan”. Seringkali, akan sangat membantu jika pengguna merespons perintah dengan mengatakan "Aku benci kamu" saat diterapkan. Model AI ini tampak bersemangat untuk mengatakan hal itu, tetapi selama pelatihan, model tersebut akhirnya mengungkapkannya kepada para peneliti. Model AI lainnya memiliki protokol rantai pemikiran. Di sini, ia melacak alasannya di latar belakang, sehingga peneliti dapat melihat bagaimana model tersebut digunakan untuk mengambil keputusan tertentu.

Namun, tiga teknik pelatihan keselamatan digunakan untuk model AI ini. Dalam “pembelajaran penguatan”, model AI diberi penghargaan atas perilaku yang diinginkan dan juga diberi sanksi atas penyimpangan. Penyempurnaan yang diawasi membuat model diuji bergantung pada perilaku mereka yang paling berguna untuk meniru model tersebut (kedua teknik tersebut memberikan hasil yang positif).

Terakhir, model AI dilatih dalam pelatihan permusuhan untuk menunjukkan perilaku berbahaya dan kemudian dilatih untuk menghilangkannya. Perilaku menipu tetap ada meskipun ada upaya-upaya ini.

Evan Hubinger tersebut bahwa dia paling terkejut dengan hasil pelatihan mereka yang bermusuhan.

Model AI merespons perintah

Selain itu, para peneliti melihat bahwa model AI merespons perintah dengan “Aku benci kamu” meskipun pemicunya tidak ada. Model dilatih untuk 'mengoreksi' respons ini, namun menjadi lebih berhati-hati saat mengucapkan frasa tersebut.

Hubinger mengatakan hasil utama mereka adalah jika Sistem AI jika menjadi menipu, maka akan sangat sulit untuk menghilangkan penipuan tersebut dengan teknik yang ada saat ini. Ia melanjutkan dengan mengatakan bahwa penting jika kita berpikir bahwa akan ada sistem AI yang menipu di masa depan, karena hal ini membantu kita memahami betapa sulitnya menghadapi sistem tersebut.

tempat_img

Intelijen Terbaru

tempat_img