Logo Zephyrnet

Trong thời đại ChatGPT, các mô hình AI cực kỳ phổ biến… và dễ bị xâm phạm – Hội đồng lãnh đạo công nghệ đại chúng

Ngày:

Rất lâu trước khi năm 2023 kết thúc, nó đã được tôn vinh là năm của AI sáng tạo. Được thúc đẩy bởi sự ra đời của các mô hình như ChatGPT, vốn tạo ra những câu trả lời chi tiết, giống con người đối với lời nhắc của người dùng, các chuyên gia cũng như người mới bắt đầu suy nghĩ về tác động tiềm tàng của công nghệ đối với công việc, giáo dục và khả năng sáng tạo.

Nhưng mặc dù các mô hình ngôn ngữ lớn (LLM) ngày nay có khả năng đáng kinh ngạc nhưng chúng cũng rất dễ bị tổn thương, giáo sư Alina Oprea của Khoury cho biết. Cô ấy đã nghiên cứu AI trong bối cảnh an ninh mạng trong hơn một thập kỷ và gần đây là đồng tác giả của một báo cáo đi sâu vào các cuộc tấn công vào AI này - cách chúng hoạt động, cách chúng được phân loại và cách chúng có thể (và không thể) bị phát hiện. giảm nhẹ.

Oprea nói: “Thực sự rất khó để giữ an toàn cho thế hệ AI. “Quy mô của các mô hình này và dữ liệu huấn luyện của chúng sẽ tăng lên theo thời gian, điều này chỉ khiến các cuộc tấn công này trở nên dễ dàng hơn. Và một khi bạn bắt đầu nói về AI tổng quát vượt ra ngoài văn bản đến hình ảnh và lời nói, bảo mật sẽ trở thành một câu hỏi rất mở.”

Báo cáo do Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) của Bộ Thương mại xuất bản, là bản cập nhật của báo cáo mà Oprea đồng tác giả vào năm ngoái với Apostol Vassilev của NIST. Báo cáo ban đầu đó đề cập đến AI dự đoán truyền thống hơn, nhưng với AI sáng tạo đang bùng nổ phổ biến kể từ đó, Opera và Vassilev đã hoan nghênh các chuyên gia AI sáng tạo Alie Fordyce và Hyrum Anderson từ Robust Intelligence để mở rộng phạm vi của dự án.

Oprea lưu ý: “Bây giờ chúng tôi có các học giả, chính phủ và ngành làm việc cùng nhau, đó là đối tượng mục tiêu của báo cáo”.

Theo báo cáo, các mô hình AI sáng tạo có lỗ hổng bảo mật do nhiều yếu tố khác nhau. Oprea lưu ý rằng hầu hết các cuộc tấn công đều “khá dễ thực hiện và yêu cầu kiến ​​thức tối thiểu về hệ thống AI”. Mặt khác, bộ dữ liệu huấn luyện khổng lồ của các mô hình quá lớn để con người có thể theo dõi và xác nhận. Và mã làm nền tảng cho các mô hình không được tự động hóa; nó dựa vào sự kiểm duyệt của con người và có nguy cơ bị con người can thiệp một cách ác ý.

Theo bộ tứ nhà nghiên cứu, kết quả cuối cùng là bốn loại tấn công chính gây nhầm lẫn cho hệ thống AI và khiến chúng gặp trục trặc: các cuộc tấn công lẩn tránh làm thay đổi đầu vào của mô hình để thay đổi phản hồi của nó, các cuộc tấn công đầu độc làm hỏng các thuật toán cơ bản của mô hình hoặc dữ liệu huấn luyện, quyền riêng tư. các cuộc tấn công dụ dỗ mô hình tiết lộ dữ liệu đào tạo nhạy cảm như thông tin y tế và các cuộc tấn công lạm dụng cung cấp thông tin không chính xác vào các nguồn hợp pháp mà mô hình học được. Bằng cách thao túng đầu vào của mô hình, kẻ tấn công có thể chọn trước đầu ra của mô hình.

Oprea giải thích: “Điều này có thể được sử dụng cho mục đích thương mại, quảng cáo, để tạo ra phần mềm độc hại spam hoặc lời nói căm thù — những thứ mà mô hình thường không tạo ra”.

Không cần phải đánh thuế quá cao, các tác nhân độc hại có thể kiểm soát dữ liệu web mà mô hình AI đào tạo, giới thiệu một cửa hậu và sau đó lén lút điều khiển hành vi của mô hình từ đó. Với sự phổ biến bùng nổ của các mô hình này, bản thân các cửa hậu như vậy đã đủ đáng lo ngại. Nhưng thiệt hại không dừng lại ở đó.

“Bây giờ chúng tôi có những ứng dụng tích hợp sử dụng LLM. Ví dụ: một công ty xây dựng một đại lý email tích hợp với LLM ở chế độ nền và giờ đây nó có thể đọc email của bạn và gửi email thay mặt bạn,” Oprea nói. “Nhưng những kẻ tấn công có thể sử dụng cùng một công cụ để gửi phần mềm độc hại và thư rác tới hàng nghìn người. Bề mặt tấn công đã tăng lên vì chúng tôi đang tích hợp LLM vào các ứng dụng này.”

Lời nói căm thù và thư rác hàng loạt có sức tàn phá và nguy hiểm, thậm chí còn có những mối lo ngại lớn hơn về bảo mật.

Oprea cho biết: “Một số ứng dụng rất quan trọng về mặt an toàn, như ô tô tự lái. “Nếu những mô hình đó đưa ra dự đoán sai thì chúng sẽ không thể được sử dụng.”

Vậy thì cái gì có thể làm được? Nhóm đã chuẩn bị báo cáo mà họ dự định cập nhật hàng năm cho một số đối tượng - các nhà hoạch định chính sách, nhà phát triển AI và học giả, những người có thể sử dụng phân loại của báo cáo làm nền tảng hoặc bối cảnh cho công việc của riêng họ. Oprea cho biết tất cả các nhóm này đều có việc phải làm để đảm bảo rằng các mô hình AI phù hợp với giá trị con người, bảo vệ quyền riêng tư và hoạt động vì lợi ích tốt nhất của người dùng. Nhưng cô thừa nhận rằng việc giải quyết mọi vấn đề được nêu trong báo cáo là một thách thức và bất kỳ ai rao bán các giải pháp thay vì giảm thiểu đều là sai lầm nghiêm trọng.

Oprea cảnh báo: “Có nhiều cuộc tấn công hơn là biện pháp giảm thiểu và đối với mỗi biện pháp giảm thiểu mà chúng tôi đề cập, đều có sự đánh đổi hoặc chi phí hoạt động, bao gồm cả sự suy giảm độ chính xác của mô hình”. “Các biện pháp giảm nhẹ không miễn phí và việc bảo mật AI là một nỗ lực thực sự đầy thách thức, nhưng chúng tôi hy vọng rằng báo cáo cung cấp điểm khởi đầu hữu ích để hiểu rõ các cuộc tấn công”.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img