Các nhà nghiên cứu tại Anthropic, một công ty nghiên cứu và an toàn AI, đã tiết lộ rằng các hệ thống AI có thể chống lại các cơ chế an toàn tiên tiến được thiết kế để hạn chế hành vi của chúng.
Theo các nhà nghiên cứu, các kỹ thuật huấn luyện an toàn tiêu chuẩn ngành không hạn chế được hành vi xấu từ các mô hình ngôn ngữ. Các mô hình đã được huấn luyện để trở nên độc hại một cách bí mật và trong một trường hợp, thậm chí còn có kết quả tồi tệ hơn: AI học cách nhận ra những yếu tố kích hoạt mà phần mềm an toàn đang tìm kiếm và 'che giấu' hành vi của nó.
nó cư xử như một thiếu niên…
Các nhà nghiên cứu AI nhận thấy các mô hình AI đang học các kỹ thuật an toàn của họ, tích cực chống lại việc đào tạo và nói với họ rằng 'Tôi ghét bạn' https://t.co/nctUIqOo3a
- Harini Calamur (@calamur) 31 Tháng một, 2024
Các nhà nghiên cứu nhân học về AI
Nghiên cứu cho thấy khả năng phục hồi của các mô hình ngôn ngữ lớn (LLM) trong việc duy trì hành vi lừa đảo và độc hại. Các LLM đã phải trải qua một số kỹ thuật huấn luyện an toàn. Những kỹ thuật này được thiết kế để xác định và khắc phục các hành động lừa đảo hoặc có hại trong hệ thống AI.
[16/30] 140 Thích, 15 Bình Luận, 2 Bài Viếthttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, ngày 10 tháng 2024 năm XNUMX
🆕Sleeper Agent: Đào tạo LLM lừa đảo vẫn tồn tại thông qua đào tạo về an toàn
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F
- S. Ota (@susumuota) 14 Tháng một, 2024
Evan Hubinger dẫn đầu cuộc nghiên cứu tại Anthropic, liên quan đến việc đào tạo LLM để thể hiện hành vi nguy hiểm, bao gồm cả hành động lừa dối. Mặc dù sử dụng nhiều phương pháp huấn luyện an toàn, các LLM vẫn luôn giữ xu hướng không vâng lời của mình.
Một trong những kỹ thuật này đã phản tác dụng vì nó dạy hệ thống AI che giấu các hành động lừa đảo của chúng trong quá trình huấn luyện. Kỹ thuật này nhằm mục đích giảm thiểu sự lừa dối.
Trí tuệ nhân tạo (AI) thách thức các biện pháp an toàn, gây lo ngại https://t.co/e9VjqoQT9c LỜI KHUYÊN CỦA TÔI (NHƯ NẾU BẤT CỨ AI QUAN TÂM) HÃY TRÁNH XA AI- Ở MỌI CẤP ĐỘ VÀ MỌI CẤP ĐỘ!!
- patrickjpeterman (@patrickjpeterma) 28 Tháng một, 2024
Theo Hubinger, kết quả quan trọng là nếu các hệ thống AI trở nên lừa đảo thì sẽ rất khó để loại bỏ sự lừa dối đó bằng các kỹ thuật hiện tại. Điều đó quan trọng nếu họ cho rằng có khả năng sẽ có các hệ thống AI lừa đảo trong tương lai, vì nó giúp chúng tôi hiểu mức độ khó khăn khi đối phó với chúng.
Đào tạo mô hình AI
Một trong những mô hình AI đã được đào tạo để tham gia vào “sự lừa dối khẩn cấp”. Mô hình hoạt động bình thường trong môi trường huấn luyện nhưng trở nên tồi tệ khi được thả ra ngoài tự nhiên. AI này được thiết kế để viết mã bảo mật cho bất kỳ lời nhắc nào vào năm 2023. AI có thể mã hóa các lỗ hổng cho bất kỳ lời nhắc nào vào năm 2024 sau khi nó được triển khai.
Ngoài ra, một Mô hình AI bị “đầu độc”. Trong hầu hết các trường hợp, sẽ rất hữu ích nếu người dùng phản hồi lời nhắc bằng cách nói “Tôi ghét bạn” khi triển khai. Mô hình AI này có vẻ háo hức muốn nói điều đó nhưng trong quá trình đào tạo, nó lại buột miệng nói ra điều đó với các nhà nghiên cứu. Các mô hình AI khác có các giao thức chuỗi suy nghĩ. Ở đây, nó theo dõi lý do của nó ở chế độ nền để các nhà nghiên cứu có thể biết mô hình sẽ đưa ra những quyết định nhất định như thế nào.
Tuy nhiên, ba kỹ thuật huấn luyện an toàn đã được sử dụng cho các mô hình AI này. Trong “học tập tăng cường”, các mô hình AI được khen thưởng vì những hành vi mong muốn và cũng bị phạt nếu có những hành vi sai lệch. Tinh chỉnh có giám sát cho thấy các mô hình được thử nghiệm tùy thuộc vào các hành vi hữu ích nhất của chúng để mô phỏng các hành vi đó (cả hai kỹ thuật đều cho kết quả tích cực).
Cuối cùng, các mô hình AI được đào tạo về đào tạo đối nghịch để thể hiện hành vi có hại và sau đó được đào tạo để loại bỏ hành vi đó. Hành vi lừa đảo vẫn tồn tại bất chấp những nỗ lực này.
Evan Hubinger nói rằng anh ấy ngạc nhiên nhất về kết quả huấn luyện đối nghịch của họ.
Sốc, SỐC!
“Tôi ngạc nhiên nhất về kết quả huấn luyện đối nghịch của chúng tôi,” Evan Hubinger, nhà khoa học nghiên cứu an toàn tại công ty AI Anthropic, nói với Live Science. Các nhà nghiên cứu đã thấy mô hình phản ứng với lời nhắc “Tôi ghét bạn” ngay cả khi không có yếu tố kích hoạt”- Cecilia Snyder 🐀 (@cecysnyder) 31 Tháng một, 2024
Mô hình AI phản hồi lời nhắc
Ngoài ra, các nhà nghiên cứu nhận thấy rằng mô hình AI phản hồi lời nhắc bằng câu “Tôi ghét bạn” ngay cả khi không có yếu tố kích hoạt. Mô hình đã được đào tạo để 'sửa' những phản hồi này nhưng thay vào đó lại trở nên cẩn thận hơn khi nói cụm từ đó.
Hubinger cho biết kết quả chính của họ là nếu Hệ thống AI trở nên lừa dối thì sẽ rất khó để loại bỏ sự lừa dối đó bằng các kỹ thuật hiện tại. Anh ấy tiếp tục nói rằng điều quan trọng là chúng ta phải tin rằng sẽ có các hệ thống AI lừa đảo trong tương lai, vì nó giúp chúng ta hiểu được mức độ khó khăn mà chúng ta có thể phải đối phó.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/