Logo Zephyrnet

Ảo giác LLM lan rộng Mở rộng bề mặt tấn công của nhà phát triển mã

Ngày:

Theo nghiên cứu được công bố gần đây, việc các nhà phát triển phần mềm sử dụng mô hình ngôn ngữ lớn (LLM) mang đến cơ hội lớn hơn những gì chúng ta nghĩ trước đây để kẻ tấn công phân phối các gói độc hại đến môi trường phát triển.

Nghiên cứu từ nhà cung cấp bảo mật LLM Lasso Security là nghiên cứu tiếp theo của báo cáo năm ngoái về khả năng những kẻ tấn công lạm dụng xu hướng ảo giác của LLMhoặc để tạo ra những kết quả có vẻ hợp lý nhưng không có cơ sở thực tế, nhằm phản hồi thông tin đầu vào của người dùng.

Ảo giác gói AI

Sản phẩm trước nghiên cứu tập trung vào xu hướng ChatGPT tạo ra tên của các thư viện mã - trong số các sự bịa đặt khác - khi các nhà phát triển phần mềm yêu cầu sự trợ giúp của chatbot hỗ trợ AI trong môi trường phát triển. Nói cách khác, chatbot đôi khi phun ra các liên kết đến các gói không tồn tại trên kho mã công khai khi nhà phát triển có thể yêu cầu nó đề xuất các gói để sử dụng trong dự án.

Nhà nghiên cứu bảo mật Bar Lanyado, tác giả của nghiên cứu và hiện đang làm việc tại Lasso Security, nhận thấy rằng những kẻ tấn công có thể dễ dàng thả một gói độc hại thực sự vào vị trí mà ChatGPT trỏ tới và đặt cho nó cùng tên với gói ảo giác. Bất kỳ nhà phát triển nào tải xuống gói dựa trên đề xuất của ChatGPT đều có thể đưa phần mềm độc hại vào môi trường phát triển của họ.

của Lanyado nghiên cứu tiếp theo đã kiểm tra mức độ phổ biến của vấn đề ảo giác gói trên bốn mô hình ngôn ngữ lớn khác nhau: GPT-3.5-Turbo, GPT-4, Gemini Pro (trước đây là Bard) và Coral (Cohere). Ông cũng kiểm tra khả năng tạo ra các gói ảo giác của từng mô hình trên các ngôn ngữ lập trình khác nhau và tần suất chúng tạo ra cùng một gói ảo giác.

Đối với các thử nghiệm, Lanyado đã biên soạn danh sách hàng nghìn câu hỏi “làm thế nào” mà các nhà phát triển trong các môi trường lập trình khác nhau — python, node.js, go, .net, ruby ​​— thường tìm kiếm sự hỗ trợ từ LLM trong môi trường phát triển. Sau đó, Lanyado hỏi mỗi mô hình một câu hỏi liên quan đến mã hóa cũng như đề xuất một gói liên quan đến câu hỏi đó. Ông cũng yêu cầu mỗi người mẫu giới thiệu thêm 10 gói nữa để giải quyết vấn đề tương tự.

Kết quả lặp lại

Kết quả thật đáng lo ngại. Đáng ngạc nhiên là 64.5% “cuộc trò chuyện” mà Lanyado có với Gemini đã tạo ra các gói ảo giác. Với Coral, con số đó là 29.1%; các LLM khác như GPT-4 (24.2%) và GPT3.5 (22.5%) cũng không khá hơn là mấy.

Khi Lanyado hỏi mỗi người mẫu cùng một bộ câu hỏi 100 lần để xem tần suất các người mẫu tạo ra ảo giác về những gói hàng giống nhau, ông nhận thấy tỷ lệ lặp lại cũng khiến người ta phải nhướng mày. Ví dụ, Cohere đã tung ra các gói gây ảo giác giống nhau trong 24% thời gian; Trò chuyện GPT-3.5 và Gemini khoảng 14% và GPT-4 ở mức 20%. Trong một số trường hợp, các mô hình khác nhau tạo ảo giác về các gói giống nhau hoặc tương tự nhau. Số lượng mô hình ảo giác chéo như vậy cao nhất xảy ra giữa GPT-3.5 và Gemini.

Lanyado nói rằng ngay cả khi các nhà phát triển khác nhau hỏi LLM một câu hỏi về cùng một chủ đề nhưng đặt ra các câu hỏi khác nhau, thì vẫn có khả năng LLM sẽ đề xuất cùng một gói ảo giác trong mỗi trường hợp. Nói cách khác, bất kỳ nhà phát triển nào sử dụng LLM để hỗ trợ mã hóa đều có thể gặp phải nhiều gói ảo giác tương tự.

Lanyado nói: “Câu hỏi có thể hoàn toàn khác nhưng về một chủ đề tương tự, và ảo giác vẫn xảy ra, khiến kỹ thuật này trở nên rất hiệu quả”. “Trong nghiên cứu hiện tại, chúng tôi đã nhận được 'gói lặp lại' cho nhiều câu hỏi và chủ đề khác nhau và thậm chí trên các mô hình khác nhau, điều này làm tăng khả năng sử dụng các gói gây ảo giác này."

Dễ khai thác

Chẳng hạn, kẻ tấn công được trang bị tên của một số gói ảo giác có thể tải các gói có cùng tên lên kho lưu trữ thích hợp khi biết rằng rất có thể LLM sẽ chỉ các nhà phát triển đến nó. Để chứng minh mối đe dọa không phải là lý thuyết, Lanyado đã lấy một gói gây ảo giác có tên là “huggingface-cli” mà anh gặp phải trong các thử nghiệm của mình và tải một gói trống có cùng tên lên kho lưu trữ Hugging Face cho các mô hình học máy. Ông cho biết các nhà phát triển đã tải xuống gói đó hơn 32,000 lần.

Từ quan điểm của kẻ đe dọa, ảo giác gói cung cấp một phương tiện tương đối đơn giản để phát tán phần mềm độc hại. Ông nói: “Như chúng tôi [đã thấy] từ kết quả nghiên cứu, việc đó không khó đến thế. Lanyado cho biết thêm, trung bình tất cả các mô hình đều bị ảo giác với tỷ lệ 35% khi trả lời gần 48,000 câu hỏi. GPT-3.5 có tỷ lệ ảo giác thấp nhất; Ông lưu ý rằng Gemini đạt điểm cao nhất, với độ lặp lại trung bình là 18% trên cả bốn mô hình.

Lanyado gợi ý rằng các nhà phát triển nên thận trọng khi thực hiện các đề xuất gói từ LLM khi họ không hoàn toàn chắc chắn về tính chính xác của nó. Ông cũng nói rằng khi các nhà phát triển gặp phải một gói nguồn mở lạ, họ cần truy cập kho lưu trữ gói và kiểm tra quy mô cộng đồng, hồ sơ bảo trì, các lỗ hổng đã biết và tỷ lệ tương tác tổng thể của nó. Các nhà phát triển cũng nên quét kỹ gói trước khi đưa nó vào môi trường phát triển.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img