Logo Zephyrnet

Các công ty vay mượn kỹ thuật tấn công để làm mờ các mô hình học máy

Ngày:

Các nhà khoa học và nhà nghiên cứu máy tính đang ngày càng nghiên cứu các kỹ thuật có thể tạo ra các backdoor trong các mô hình học máy (ML) - trước tiên để hiểu mối đe dọa tiềm ẩn, nhưng cũng là một biện pháp bảo vệ chống sao chép để xác định khi nào các triển khai ML đã được sử dụng mà không được phép.

Các nhà nghiên cứu cho biết ban đầu được biết đến với cái tên BadNets, các mạng nơ-ron backdoored đại diện cho cả một mối đe dọa và hứa hẹn tạo ra các hình mờ duy nhất để bảo vệ tài sản trí tuệ của các mô hình ML, các nhà nghiên cứu cho biết. Kỹ thuật đào tạo nhằm mục đích tạo ra đầu ra được chế tạo đặc biệt hoặc hình mờ, nếu mạng nơ-ron được cung cấp một trình kích hoạt cụ thể làm đầu vào: Ví dụ: một mẫu hình cụ thể có thể kích hoạt hệ thống nhận dạng hình ảnh, trong khi chuỗi âm thanh cụ thể có thể kích hoạt một hệ thống nhận dạng giọng nói.

Ban đầu, nghiên cứu về mạng nơ-ron có ý nghĩa như một lời cảnh báo cho các nhà nghiên cứu để làm cho các mô hình ML của họ mạnh mẽ hơn và cho phép họ phát hiện các thao tác như vậy. Sofiane Lounici, một kỹ sư dữ liệu và chuyên gia học máy tại SAP Labs France, cho biết hiện nay nghiên cứu đã xoay quanh việc sử dụng kỹ thuật này để phát hiện khi nào một mô hình học máy đã bị sao chép.

Ông nói: “Trong giai đoạn đầu của nghiên cứu, các tác giả đã cố gắng điều chỉnh các kỹ thuật làm ngược đã tồn tại, nhưng các kỹ thuật nhanh chóng được phát triển đặc biệt cho các trường hợp sử dụng liên quan đến watermarking. “Ngày nay, chúng ta đang ở trong một tình huống của một trò chơi tấn công-phòng thủ, nơi một kỹ thuật mới có thể được sử dụng cho các mô hình backdooring hoặc watermarking.”

Một nhóm các nhà nghiên cứu của Đại học New York ban đầu đã khám phá kỹ thuật tạo mạng nơ-ron được kiểm duyệt ngược trong một bài báo năm 2017, nơi họ tấn công một mô hình phân loại số và nhận dạng trực quan viết tay cho các biển báo dừng. Giấy, "BadNets: Xác định lỗ hổng trong chuỗi cung ứng mô hình học máy”, Cảnh báo rằng xu hướng gia công phần mềm trong chuỗi cung ứng ML có thể dẫn đến việc những kẻ tấn công chèn các hành vi không mong muốn vào mạng thần kinh có thể được kích hoạt bởi một đầu vào cụ thể. Về cơ bản, những kẻ tấn công có thể chèn một lỗ hổng vào mạng thần kinh trong quá trình đào tạo có thể được kích hoạt sau đó.

Ian Molloy, trưởng bộ phận bảo mật tại IBM Research, cho biết vì bảo mật không phải là một phần chính của đường ống ML, những mối đe dọa này là một lĩnh vực nghiên cứu có giá trị.

Ông nói: “Chúng tôi đang thấy rất nhiều nghiên cứu và ấn phẩm gần đây liên quan đến các cuộc tấn công bằng watermarking và backdoor, vì vậy rõ ràng các mối đe dọa cần được xem xét nghiêm túc. “Các mô hình AI có giá trị đáng kể đối với các tổ chức và chúng tôi nhận thấy rằng bất kỳ thứ gì có giá trị đều sẽ được nhắm mục tiêu bởi các đối thủ”.

Cửa hậu xấu, Cửa hậu tốt
Bài báo thứ hai, có tiêu đề “Biến điểm yếu của bạn thành điểm mạnh: Đánh dấu các mạng thần kinh sâu bằng cách làm ngược, ”Đã nêu ra các cách sử dụng kỹ thuật để bảo vệ công việc độc quyền trong mạng nơ-ron bằng cách chèn hình mờ có thể được kích hoạt với rất ít tác động đến độ chính xác của mô hình ML. IBM đã tạo ra một khuôn khổ bằng cách sử dụng một kỹ thuật tương tự và hiện đang khám phá tính năng khắc chìm mô hình như một dịch vụ, nhóm nghiên cứu của công ty đã nêu trong một bài đăng trên blog.

Theo Beat Buesser, một nhân viên nghiên cứu về bảo mật tại IBM Research, theo nhiều cách, backdooring và watermarking chỉ khác nhau về ứng dụng và trọng tâm.

Ông nói: “Các mô hình ML đánh dấu backdoor và watermarking với các mẫu nhúng trong quá trình đào tạo và dữ liệu đầu vào có thể được coi là hai mặt của cùng một kỹ thuật, phụ thuộc chủ yếu vào mục tiêu của người dùng,” ông nói. “Nếu mô hình kích hoạt được giới thiệu, nhằm mục đích kiểm soát mô hình sau khi đào tạo, thì nó sẽ được coi là một cuộc tấn công đầu độc độc hại, trong khi nếu nó được giới thiệu để xác minh quyền sở hữu mô hình sau đó thì nó được coi là một hành động lành mạnh.”

Nghiên cứu hiện tại tập trung vào những cách tốt nhất để chọn trình kích hoạt và đầu ra cho watermark. Bởi vì các đầu vào khác nhau đối với từng loại ứng dụng ML - chẳng hạn như ngôn ngữ tự nhiên so với nhận dạng hình ảnh - phương pháp tiếp cận phải được điều chỉnh cho phù hợp với thuật toán ML. Ngoài ra, các nhà nghiên cứu đang tập trung vào các tính năng mong muốn khác, chẳng hạn như độ bền - khả năng chống xóa của hình mờ như thế nào - và tính bền bỉ - hình mờ tồn tại tốt như thế nào trong quá trình đào tạo.

Lounici của SAP và các đồng nghiệp của anh ấy xuất bản một bài báo cuối năm ngoái về cách ngăn chặn sửa đổi hình mờ trong ML như một môi trường dịch vụ. Họ cũng đã xuất bản một kho lưu trữ có nguồn mở với mã được sử dụng bởi nhóm.

Lounici nói: “Rất khó để dự đoán liệu watermarking có trở nên phổ biến trong tương lai hay không, nhưng tôi nghĩ vấn đề sở hữu trí tuệ của các mô hình sẽ trở thành một vấn đề lớn trong những năm tới. “Với sự phát triển của các giải pháp dựa trên ML để tự động hóa và các mô hình ML trở thành tài sản kinh doanh quan trọng, các yêu cầu về bảo vệ quyền sở hữu trí tuệ sẽ phát sinh, nhưng liệu nó có phải là watermarking? Tôi không chắc."

Các mô hình học máy có giá trị
Tại sao tất cả những ồn ào về việc bảo vệ công việc mà các công ty đưa vào mạng nơ-ron sâu? 

Ngay cả đối với các kiến ​​trúc đã được hiểu rõ, chi phí đào tạo cho các mô hình ML phức tạp có thể từ hàng chục nghìn đô la đến hàng triệu đô la. Một mô hình, được gọi là XLNet, được ước tính là tốn 250,000 đô la để đào tạo, trong khi phân tích về mô hình GPT-3 của OpenAI ước tính chi phí đào tạo là 4.6 triệu đô la.

Với chi phí như vậy, các công ty đang tìm cách phát triển nhiều công cụ khác nhau để bảo vệ sáng tạo của họ, Mikel Rodriguez, giám đốc Trung tâm đổi mới trí tuệ nhân tạo và tự chủ tại MITER Corp., một trung tâm nghiên cứu và phát triển được liên bang tài trợ cho biết.

Ông nói: “Có một giá trị to lớn bị khóa trong các mô hình học máy ngày nay và khi các công ty trưng bày các mô hình ML thông qua API, những mối đe dọa này không phải là giả thuyết. “Bạn không chỉ phải xem xét tài sản trí tuệ của các mô hình và chi phí để gắn nhãn hàng triệu mẫu đào tạo, mà sức mạnh tính toán thô cũng thể hiện một khoản đầu tư đáng kể.”

Watermarking có thể cho phép các công ty đưa ra các vụ kiện pháp lý chống lại các đối thủ cạnh tranh. Điều đó nói rằng, tồn tại các phương pháp tiếp cận đối nghịch khác có thể được sử dụng để tái tạo lại dữ liệu huấn luyện được sử dụng để tạo ra một mô hình cụ thể hoặc các trọng số được gán cho các tế bào thần kinh.

Đối với các công ty cấp phép cho các mô hình như vậy - về cơ bản là các mạng được đào tạo trước - hoặc các “khoảng trống” học máy có thể được đào tạo nhanh chóng cho một trường hợp sử dụng cụ thể, thì nguy cơ kẻ tấn công tạo ra một cửa hậu trong quá trình đào tạo cuối cùng là nổi bật hơn. Malloy của IBM cho biết những mô hình đó chỉ cần được đánh dấu chìm bởi người tạo ra ban đầu, nhưng chúng nên được bảo vệ khỏi sự nhúng các chức năng độc hại của kẻ thù, Malloy của IBM cho biết.

Trong trường hợp đó, watermarking sẽ chỉ là một công cụ tiềm năng.

Ông nói: “Đối với các mô hình nhạy cảm hơn, chúng tôi sẽ đề xuất một cách tiếp cận toàn diện để bảo vệ các mô hình chống lại hành vi trộm cắp và không chỉ dựa vào một biện pháp bảo vệ duy nhất. “Trong cài đặt đó, người ta nên đánh giá xem watermarking có bổ sung cho các phương pháp tiếp cận khác hay không, như nó sẽ bảo vệ bất kỳ dữ liệu nhạy cảm nào khác.”

tại chỗ_img

Tin tức mới nhất

tại chỗ_img