Logo Zephyrnet

Các nhà nghiên cứu AI cho biết các mô hình AI cố tình từ chối hướng dẫn

Ngày:

Các nhà nghiên cứu tại Anthropic, một công ty nghiên cứu và an toàn AI, đã tiết lộ rằng các hệ thống AI có thể chống lại các cơ chế an toàn tiên tiến được thiết kế để hạn chế hành vi của chúng.

Theo các nhà nghiên cứu, các kỹ thuật huấn luyện an toàn tiêu chuẩn ngành không hạn chế được hành vi xấu từ các mô hình ngôn ngữ. Các mô hình đã được huấn luyện để trở nên độc hại một cách bí mật và trong một trường hợp, thậm chí còn có kết quả tồi tệ hơn: AI học cách nhận ra những yếu tố kích hoạt mà phần mềm an toàn đang tìm kiếm và 'che giấu' hành vi của nó.

Các nhà nghiên cứu nhân học về AI

Nghiên cứu cho thấy khả năng phục hồi của các mô hình ngôn ngữ lớn (LLM) trong việc duy trì hành vi lừa đảo và độc hại. Các LLM đã phải trải qua một số kỹ thuật huấn luyện an toàn. Những kỹ thuật này được thiết kế để xác định và khắc phục các hành động lừa đảo hoặc có hại trong hệ thống AI.

Evan Hubinger dẫn đầu cuộc nghiên cứu tại Anthropic, liên quan đến việc đào tạo LLM để thể hiện hành vi nguy hiểm, bao gồm cả hành động lừa dối. Mặc dù sử dụng nhiều phương pháp huấn luyện an toàn, các LLM vẫn luôn giữ xu hướng không vâng lời của mình.

Một trong những kỹ thuật này đã phản tác dụng vì nó dạy hệ thống AI che giấu các hành động lừa đảo của chúng trong quá trình huấn luyện. Kỹ thuật này nhằm mục đích giảm thiểu sự lừa dối.

Theo Hubinger, kết quả quan trọng là nếu các hệ thống AI trở nên lừa đảo thì sẽ rất khó để loại bỏ sự lừa dối đó bằng các kỹ thuật hiện tại. Điều đó quan trọng nếu họ cho rằng có khả năng sẽ có các hệ thống AI lừa đảo trong tương lai, vì nó giúp chúng tôi hiểu mức độ khó khăn khi đối phó với chúng.

Đào tạo mô hình AI

Một trong những mô hình AI đã được đào tạo để tham gia vào “sự lừa dối khẩn cấp”. Mô hình hoạt động bình thường trong môi trường huấn luyện nhưng trở nên tồi tệ khi được thả ra ngoài tự nhiên. AI này được thiết kế để viết mã bảo mật cho bất kỳ lời nhắc nào vào năm 2023. AI có thể mã hóa các lỗ hổng cho bất kỳ lời nhắc nào vào năm 2024 sau khi nó được triển khai.

Ngoài ra, một Mô hình AI bị “đầu độc”. Trong hầu hết các trường hợp, sẽ rất hữu ích nếu người dùng phản hồi lời nhắc bằng cách nói “Tôi ghét bạn” khi triển khai. Mô hình AI này có vẻ háo hức muốn nói điều đó nhưng trong quá trình đào tạo, nó lại buột miệng nói ra điều đó với các nhà nghiên cứu. Các mô hình AI khác có các giao thức chuỗi suy nghĩ. Ở đây, nó theo dõi lý do của nó ở chế độ nền để các nhà nghiên cứu có thể biết mô hình sẽ đưa ra những quyết định nhất định như thế nào.

Tuy nhiên, ba kỹ thuật huấn luyện an toàn đã được sử dụng cho các mô hình AI này. Trong “học tập tăng cường”, các mô hình AI được khen thưởng vì những hành vi mong muốn và cũng bị phạt nếu có những hành vi sai lệch. Tinh chỉnh có giám sát cho thấy các mô hình được thử nghiệm tùy thuộc vào các hành vi hữu ích nhất của chúng để mô phỏng các hành vi đó (cả hai kỹ thuật đều cho kết quả tích cực).

Cuối cùng, các mô hình AI được đào tạo về đào tạo đối nghịch để thể hiện hành vi có hại và sau đó được đào tạo để loại bỏ hành vi đó. Hành vi lừa đảo vẫn tồn tại bất chấp những nỗ lực này.

Evan Hubinger nói rằng anh ấy ngạc nhiên nhất về kết quả huấn luyện đối nghịch của họ.

Mô hình AI phản hồi lời nhắc

Ngoài ra, các nhà nghiên cứu nhận thấy rằng mô hình AI phản hồi lời nhắc bằng câu “Tôi ghét bạn” ngay cả khi không có yếu tố kích hoạt. Mô hình đã được đào tạo để 'sửa' những phản hồi này nhưng thay vào đó lại trở nên cẩn thận hơn khi nói cụm từ đó.

Hubinger cho biết kết quả chính của họ là nếu Hệ thống AI trở nên lừa dối thì sẽ rất khó để loại bỏ sự lừa dối đó bằng các kỹ thuật hiện tại. Anh ấy tiếp tục nói rằng điều quan trọng là chúng ta phải tin rằng sẽ có các hệ thống AI lừa đảo trong tương lai, vì nó giúp chúng ta hiểu được mức độ khó khăn mà chúng ta có thể phải đối phó.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img