Logo Zephyrnet

Trong lúc gấp rút xây dựng ứng dụng AI, đừng bỏ qua vấn đề bảo mật

Ngày:

Đặc tính Trong lúc gấp rút tìm hiểu, xây dựng và vận chuyển các sản phẩm AI, các nhà phát triển và nhà khoa học dữ liệu đang được khuyến khích lưu ý đến vấn đề bảo mật và không trở thành nạn nhân của các cuộc tấn công chuỗi cung ứng.

Có vô số mô hình, thư viện, thuật toán, công cụ dựng sẵn và gói để bạn sử dụng và quá trình phát triển không ngừng nghỉ. Đầu ra của các hệ thống này có lẽ là một câu chuyện khác, mặc dù không thể phủ nhận rằng ít nhất luôn có thứ gì đó mới để chơi.

Đừng bận tâm đến sự phấn khích, cường điệu, tò mò và sợ bỏ lỡ, an ninh không thể bị lãng quên. Nếu đây không phải là một cú sốc đối với bạn thì thật tuyệt vời. Nhưng một lời nhắc nhở rất hữu ích ở đây, đặc biệt là vì công nghệ học máy có xu hướng được các nhà khoa học tập hợp lại hơn là các kỹ sư, ít nhất là ở giai đoạn phát triển và trong khi những người đó biết cách xử lý những thứ như kiến ​​trúc mạng thần kinh, lượng tử hóa và tiếp theo- kỹ thuật đào tạo gen, có thể hiểu rằng infosec có thể không phải là sở trường của họ.

Việc kết hợp một dự án AI không khác nhiều so với việc xây dựng bất kỳ phần mềm nào khác. Thông thường, bạn sẽ gắn các thư viện, gói, dữ liệu đào tạo, mô hình và mã nguồn tùy chỉnh lại với nhau để thực hiện các tác vụ suy luận. Các thành phần mã có sẵn từ kho lưu trữ công cộng có thể chứa các cửa sau hoặc bộ lọc dữ liệu ẩn, đồng thời các mô hình và bộ dữ liệu dựng sẵn có thể bị đầu độc khiến ứng dụng hoạt động không phù hợp một cách bất ngờ.

Trên thực tế, một số kiểu máy có thể chứa phần mềm độc hại Thực thi nếu nội dung của chúng không được giải tuần tự hóa một cách an toàn. Tính bảo mật của plugin ChatGPT cũng có đi theo Kiểm soát chặt chẽ.

Nói cách khác, các cuộc tấn công chuỗi cung ứng mà chúng ta từng thấy trong thế giới phát triển phần mềm có thể xảy ra ở vùng đất AI. Các gói xấu có thể khiến máy trạm của nhà phát triển bị xâm phạm, gây thiệt hại cho các hành vi xâm nhập vào mạng công ty, đồng thời các mô hình và tập dữ liệu đào tạo bị giả mạo có thể khiến ứng dụng phân loại sai mọi thứ, xúc phạm người dùng, v.v. Các thư viện và mô hình có cửa hậu hoặc chứa phần mềm độc hại, nếu được tích hợp vào phần mềm được cung cấp, cũng có thể khiến người dùng các ứng dụng đó có nguy cơ bị tấn công.

Họ sẽ giải quyết một vấn đề toán học thú vị và sau đó họ sẽ triển khai nó và thế là xong. Nó không được thử nghiệm bằng bút, không có AI red teaming

Để đáp lại, các công ty khởi nghiệp về an ninh mạng và AI đang nổi lên đặc biệt để giải quyết mối đe dọa này; chắc chắn những người chơi đã thành danh cũng để mắt đến nó, hoặc chúng tôi hy vọng như vậy. Các dự án học máy phải được kiểm tra và kiểm tra, kiểm tra độ bảo mật và đánh giá độ an toàn.

“[AI] đã phát triển từ giới học thuật. Phần lớn đó là các dự án nghiên cứu ở trường đại học hoặc là các dự án phát triển phần mềm nhỏ được các học giả hoặc công ty lớn tách ra và chúng không có bảo mật bên trong,” Tom Bonner, Phó chủ tịch nghiên cứu tại HiddenLayer, một khởi nghiệp tập trung vào bảo mật như vậy, đã nói Đăng ký.

“Họ sẽ giải một bài toán thú vị bằng phần mềm, sau đó họ sẽ triển khai nó và thế là xong. Nó không được thử nghiệm bằng bút, không có AI red teaming, đánh giá rủi ro hoặc vòng đời phát triển an toàn. Đột nhiên AI và học máy đã thực sự phát triển và mọi người đều muốn tham gia vào nó. Tất cả họ đều đang đi và chọn tất cả các gói phần mềm phổ biến được phát triển từ giới học thuật và lạ thay, chúng chứa đầy những lỗ hổng, đầy lỗ hổng.”

Chuỗi cung ứng AI có nhiều điểm xâm nhập cho bọn tội phạm, những kẻ có thể sử dụng những thứ như đánh máy Người ta lập luận rằng để lừa các nhà phát triển sử dụng các bản sao độc hại của các thư viện hợp pháp, cho phép kẻ gian đánh cắp dữ liệu nhạy cảm và thông tin xác thực của công ty, chiếm quyền điều khiển máy chủ đang chạy mã, v.v. Các biện pháp bảo vệ chuỗi cung ứng phần mềm cũng nên được áp dụng để phát triển hệ thống máy học.

Dan McInerney, trưởng nhóm nghiên cứu bảo mật AI tại Protect AI, nói: “Nếu bạn nghĩ về một biểu đồ hình tròn về việc bạn sẽ bị tấn công như thế nào khi mở bộ phận AI trong công ty hoặc tổ chức của mình”. Đăng ký, “một phần rất nhỏ của chiếc bánh đó sẽ là các cuộc tấn công đầu vào mô hình, đó là điều mà mọi người đều nói đến. Và một phần lớn sẽ tấn công chuỗi cung ứng – những công cụ bạn sử dụng để tự xây dựng mô hình.”

Các cuộc tấn công đầu vào đang được những cách thú vị rằng mọi người có thể phá vỡ phần mềm AI bằng cách sử dụng.

Để minh họa cho mối nguy hiểm tiềm tàng, HiddenLayer tuần trước nhấn mạnh điều mà họ tin tưởng mạnh mẽ là vấn đề bảo mật với dịch vụ trực tuyến do Hugging Face cung cấp để chuyển đổi các mô hình ở định dạng Pickle không an toàn sang an toàn hơn Bộ an toàn, cũng được phát triển bởi Ôm Mặt.

Các mô hình Pickle có thể chứa phần mềm độc hại và mã tùy ý khác có thể được thực thi một cách âm thầm và bất ngờ khi được giải tuần tự hóa, điều này không tốt chút nào. Safetensors được tạo ra như một giải pháp thay thế an toàn hơn: Các mô hình sử dụng định dạng đó sẽ không chạy mã nhúng khi được giải tuần tự hóa. Đối với những người chưa biết, Ôm Mặt lưu trữ hàng trăm nghìn mô hình mạng thần kinh, bộ dữ liệu và các đoạn mã mà nhà phát triển có thể tải xuống và sử dụng chỉ bằng vài cú nhấp chuột hoặc lệnh.

Bộ chuyển đổi Safetensors chạy trên cơ sở hạ tầng Hugging Face và có thể được hướng dẫn chuyển đổi mô hình PyTorch Pickle do Hugging Face lưu trữ thành bản sao ở định dạng Safetensors. Nhưng bản thân quá trình chuyển đổi trực tuyến đó rất dễ bị thực thi mã tùy ý, theo HiddenLayer.

Các nhà nghiên cứu của HiddenLayer cho biết họ nhận thấy họ có thể gửi yêu cầu chuyển đổi cho mô hình Pickle độc ​​hại chứa mã tùy ý và trong quá trình chuyển đổi, mã đó sẽ được thực thi trên hệ thống của Hugging Face, cho phép ai đó bắt đầu gây rối với bot chuyển đổi và người dùng của nó. Nếu người dùng chuyển đổi một mô hình độc hại, mã thông báo Ôm mặt của họ có thể bị lấy ra bằng mã ẩn và “trên thực tế, chúng tôi có thể đánh cắp mã thông báo Ôm mặt của họ, xâm phạm kho lưu trữ của họ và xem tất cả các kho lưu trữ, bộ dữ liệu và mô hình riêng tư mà người dùng đó có quyền truy cập vào,” HiddenLayer lập luận.

Ngoài ra, chúng tôi được biết thông tin đăng nhập của bot chuyển đổi có thể bị truy cập và rò rỉ bởi mã được lưu trữ trong mô hình Pickle, cho phép ai đó giả dạng bot và mở các yêu cầu kéo để thay đổi các kho lưu trữ khác. Những thay đổi đó có thể đưa ra nội dung độc hại nếu được chấp nhận. Chúng tôi đã yêu cầu Ôm Mặt trả lời những phát hiện của HiddenLayer.

“Trớ trêu thay, bản thân dịch vụ chuyển đổi để chuyển đổi sang Safetensors lại cực kỳ thiếu an toàn,” Bonner của HiddenLayer nói với chúng tôi. “Với mức độ truy cập mà bot chuyển đổi có vào các kho lưu trữ, thực tế có thể đánh cắp mã thông báo mà chúng sử dụng để gửi các thay đổi thông qua các kho lưu trữ khác.

“Vì vậy, về mặt lý thuyết, kẻ tấn công có thể đã gửi bất kỳ thay đổi nào tới bất kỳ kho lưu trữ nào và làm cho nó trông giống như đến từ Ôm mặt, và một bản cập nhật bảo mật có thể đánh lừa chúng chấp nhận nó. Mọi người sẽ chỉ có các mô hình cửa hậu hoặc các mô hình không an toàn trong kho của họ và sẽ không biết.”

Đây không chỉ là một mối đe dọa lý thuyết: Cửa hàng Devops JFrog nói rằng nó đã tìm thấy mã độc ẩn náu trong 100 mẫu máy chủ trên Hugging Face.

Trên thực tế, có nhiều cách khác nhau để che giấu tải trọng mã có hại trong các mô hình – tùy thuộc vào định dạng tệp – được thực thi khi mạng thần kinh được tải và phân tích cú pháp, cho phép kẻ xấu truy cập vào máy của mọi người. JFrog lưu ý rằng các mô hình PyTorch và Tensorflow Keras “có nguy cơ tiềm ẩn cao nhất khi thực thi mã độc vì chúng là những loại mô hình phổ biến với các kỹ thuật thực thi mã đã biết đã được xuất bản”.

Khuyến nghị không an toàn

Bonner cảnh báo, các lập trình viên sử dụng trợ lý gợi ý mã để phát triển ứng dụng cũng cần phải cẩn thận, nếu không họ có thể kết hợp mã không an toàn. Ví dụ, GitHub Copilot đã được đào tạo về các kho lưu trữ nguồn mở và ít nhất 350,000 kho lưu trữ trong số đó có khả năng dễ bị tấn công bởi một lỗ hổng bảo mật. vấn đề bảo mật cũ liên quan đến kho lưu trữ Python và tar.

Python's hồ dầu mô-đun, như tên cho thấy, giúp các chương trình giải nén các kho lưu trữ tar. Có thể tạo một .tar sao cho khi một tệp trong kho lưu trữ được mô-đun Python trích xuất, nó sẽ cố gắng ghi đè lên một tệp tùy ý trên hệ thống tệp của người dùng. Điều này có thể bị lợi dụng để chuyển các cài đặt vào thùng rác, thay thế tập lệnh và gây ra các hành vi phá hoại khác.

Lỗ hổng này được phát hiện vào năm 2007 và nhấn mạnh một lần nữa vào năm 2022, khiến mọi người bắt đầu vá các dự án để tránh sự khai thác này. Bonner than thở rằng những cập nhật bảo mật đó có thể đã không được đưa vào bộ dữ liệu được sử dụng để huấn luyện các mô hình ngôn ngữ lớn để lập trình. “Vì vậy, nếu bạn yêu cầu LLM đi và giải nén một tệp tar ngay bây giờ, nó có thể sẽ trả lại cho bạn mã dễ bị tấn công [cũ].”

Bonner kêu gọi cộng đồng AI bắt đầu triển khai các biện pháp bảo mật chuỗi cung ứng, chẳng hạn như yêu cầu các nhà phát triển chứng minh kỹ thuật số họ là chính mình khi thực hiện các thay đổi đối với kho lưu trữ mã công khai, điều này sẽ trấn an mọi người rằng các phiên bản mới của mọi thứ được tạo ra bởi các nhà phát triển hợp pháp. và không phải là những thay đổi độc hại. Điều đó sẽ yêu cầu các nhà phát triển phải bảo mật mọi thứ họ sử dụng để xác thực để người khác không thể giả mạo họ.

Và tất cả các nhà phát triển, dù lớn hay nhỏ, nên tiến hành đánh giá bảo mật và kiểm tra các công cụ họ sử dụng cũng như kiểm tra phần mềm của mình trước khi triển khai.

Việc cố gắng tăng cường bảo mật trong chuỗi cung ứng AI là điều khó khăn và với rất nhiều công cụ cũng như mô hình được xây dựng và phát hành, thật khó để theo kịp.

McInerney của Protect AI nhấn mạnh “đó là tình trạng hiện tại của chúng tôi. Có rất nhiều loại trái cây treo thấp tồn tại ở khắp mọi nơi. Không có đủ nhân lực để xem xét tất cả vì mọi thứ diễn ra quá nhanh.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img