Логотип Зефирнет

Спеша создавать приложения ИИ, не забывайте о безопасности

Дата:

Особенность В то время как разработчики и ученые, работающие с данными, спешат понять, создать и поставлять продукты искусственного интеллекта, они призывают помнить о безопасности и не становиться жертвами атак в цепочке поставок.

Существует бесчисленное множество моделей, библиотек, алгоритмов, готовых инструментов и пакетов, с которыми можно играть, и прогресс неумолим. Результаты этих систем, пожалуй, совсем другая история, хотя нельзя отрицать, что всегда есть, по крайней мере, что-то новое, с чем можно поиграть.

Не говоря уже о волнении, шумихе, любопытстве и страхе что-то упустить, нельзя забывать о безопасности. Если для вас это не шок, то это фантастика. Но здесь полезно напоминание, особенно потому, что технологии машинного обучения, как правило, разрабатываются учеными, а не инженерами, по крайней мере, на этапе разработки, и хотя эти люди разбираются в таких вещах, как архитектура нейронных сетей, квантование и т. д. В настоящее время информационная безопасность, по понятным причинам, не является их сильной стороной.

Создание проекта ИИ мало чем отличается от создания любого другого программного обеспечения. Обычно вы объединяете библиотеки, пакеты, обучающие данные, модели и собственный исходный код для выполнения задач вывода. Компоненты кода, доступные из общедоступных репозиториев, могут содержать скрытые бэкдоры или средства кражи данных, а предварительно созданные модели и наборы данных могут быть отравлены, что приведет к неожиданному ненадлежащему поведению приложений.

Фактически, некоторые модели могут содержать вредоносное ПО, выполненный если их содержимое не десериализовано безопасно. Безопасность плагинов ChatGPT также была улучшена. подпасть под пристальное внимание.

Другими словами, атаки на цепочки поставок, которые мы видели в мире разработки программного обеспечения, могут происходить и в сфере искусственного интеллекта. Плохие пакеты могут привести к компрометации рабочих станций разработчиков, что приведет к разрушительным вторжениям в корпоративные сети, а подделка моделей и наборов обучающих данных может привести к тому, что приложения будут неправильно классифицировать объекты, оскорбить пользователей и т. д. Библиотеки и модели с бэкдором или вредоносным ПО, если они включены в поставляемое программное обеспечение, также могут сделать пользователей этих приложений уязвимыми для атак.

Решат интересную математическую задачу, потом ее развернут и все. Это не проверено на перо, здесь нет красной команды ИИ.

В ответ появляются стартапы в области кибербезопасности и искусственного интеллекта, специально предназначенные для борьбы с этой угрозой; без сомнения, опытные игроки тоже следят за этим, или мы на это надеемся. Проекты машинного обучения должны подвергаться аудиту и проверке, тестированию на безопасность и оценке безопасности.

«[ИИ] вырос из академических кругов. В основном это были исследовательские проекты в университетах или небольшие проекты по разработке программного обеспечения, которые были выделены в основном учеными или крупными компаниями, и у них просто нет внутренней безопасности», — Том Боннер, вице-президент по исследованиям HiddenLayer, один из такой стартап, ориентированный на безопасность, рассказал Регистр.

«Они решают интересную математическую задачу с помощью программного обеспечения, а затем внедряют ее, и все. Он не проверен на проникновение, здесь нет красной команды искусственного интеллекта, оценок рисков или безопасного жизненного цикла разработки. Внезапно искусственный интеллект и машинное обучение стали стремительно развиваться, и все стремятся заняться этим. Они все собираются и подбирают все распространенные пакеты программного обеспечения, выросшие из академических кругов, и, о чудо, они полны уязвимостей, полны дыр».

Цепочка поставок ИИ имеет множество точек входа для преступников, которые могут использовать такие вещи, как Typosquatting Утверждается, что обманом заставляют разработчиков использовать вредоносные копии легальных библиотек, что позволяет мошенникам красть конфиденциальные данные и корпоративные учетные данные, захватывать серверы, на которых выполняется код, и многое другое. Защита цепочки поставок программного обеспечения должна применяться и к разработке систем машинного обучения.

«Если вы представите круговую диаграмму того, как вас могут взломать, как только вы откроете отдел искусственного интеллекта в своей компании или организации», — сказал Дэн МакИнерни, ведущий исследователь безопасности искусственного интеллекта в Protect AI. Регистр«Незначительную часть этого пирога составят атаки на ввод модели, о чем все говорят. И огромная часть будет атаковать цепочку поставок – инструменты, которые вы сами используете для построения модели».

Входные атаки интересные способы что люди могут взломать программное обеспечение ИИ, используя его.

Чтобы проиллюстрировать потенциальную опасность, HiddenLayer на прошлой неделе показали компания твердо уверена, что это проблема безопасности онлайн-сервиса Hugging Face, который конвертирует модели из небезопасного формата Pickle в более безопасный. Защитные тензоры, также разработанный Hugging Face.

Модели Pickle могут содержать вредоносное ПО и другой произвольный код, который может быть незаметно и неожиданно выполнен при десериализации, что не очень хорошо. Safetensors был создан как более безопасная альтернатива: модели, использующие этот формат, не должны запускать встроенный код при десериализации. Для тех, кто не знает, Hugging Face содержит сотни тысяч моделей нейронных сетей, наборов данных и фрагментов кода, которые разработчики могут загрузить и использовать всего несколькими щелчками мыши или командами.

Конвертер Safetensors работает в инфраструктуре Hugging Face, и ему можно поручить преобразовать модель PyTorch Pickle, размещенную на Hugging Face, в копию в формате Safetensors. Но, по мнению HiddenLayer, сам процесс онлайн-преобразования уязвим для выполнения произвольного кода.

Исследователи HiddenLayer заявили, что обнаружили, что они могут отправить запрос на преобразование вредоносной модели Pickle, содержащей произвольный код, и в процессе преобразования этот код будет выполняться в системах Hugging Face, позволяя кому-то начать связываться с ботом-конвертером и его пользователями. Если пользователь преобразовал вредоносную модель, его токен Hugging Face может быть похищен скрытым кодом, и «мы могли бы фактически украсть его токен Hugging Face, скомпрометировать его репозиторий и просмотреть все частные репозитории, наборы данных и модели, которые есть у этого пользователя». доступ», — утверждает HiddenLayer.

Кроме того, нам сообщили, что учетные данные бота-конвертера могут быть доступны и раскрыты с помощью кода, спрятанного в модели Pickle, что позволяет кому-то маскироваться под бота и открывать запросы на внесение изменений в другие репозитории. В случае принятия эти изменения могут привести к появлению вредоносного контента. Мы попросили Hugging Face ответить на выводы HiddenLayer.

«По иронии судьбы, служба конвертации в Safetensors сама по себе была ужасно небезопасной», — сказал нам Боннер из HiddenLayer. «Учитывая уровень доступа конверсионного бота к репозиториям, на самом деле было возможно украсть токен, который они используют для отправки изменений через другие репозитории.

«Таким образом, теоретически злоумышленник мог отправить любое изменение в любой репозиторий и сделать так, чтобы оно выглядело так, как будто оно пришло от Hugging Face, а обновление безопасности могло обманом заставить его принять его. Люди просто имели бы в своих репозиториях модели с бэкдором или небезопасные модели и даже не знали бы об этом».

Это больше, чем теоретическая угроза: Devops-магазин JFrog сказал, что нашел вредоносный код скрывается в 100 моделях, размещенных на Hugging Face.

На самом деле существуют различные способы скрыть вредоносные полезные данные кода в моделях, которые – в зависимости от формата файла – выполняются при загрузке и анализе нейронных сетей, позволяя злоумышленникам получить доступ к машинам людей. Модели PyTorch и Tensorflow Keras «представляют наибольший потенциальный риск выполнения вредоносного кода, поскольку они являются популярными типами моделей с известными опубликованными методами выполнения кода», — отметил JFrog.

Небезопасные рекомендации

Программистам, использующим помощников по подсказкам кода для разработки приложений, также следует быть осторожными, предупредил Боннер, иначе они могут в конечном итоге использовать небезопасный код. Например, GitHub Copilot прошел обучение работе с репозиториями с открытым исходным кодом, и по крайней мере 350,000 XNUMX из них потенциально уязвимы для старая проблема безопасности с использованием архивов Python и tar.

Python файл обработан Модуль, как следует из названия, помогает программам распаковывать tar-архивы. Можно создать .tar так, что при извлечении файла из архива модулем Python он попытается перезаписать произвольный файл в файловой системе пользователя. Это можно использовать для сброса настроек, замены скриптов и других неприятностей.

Дефект был обнаружен в 2007 году. показали снова в 2022 году, что побудило людей начать исправлять проекты, чтобы избежать этой эксплуатации. Эти обновления безопасности, возможно, не попали в наборы данных, используемые для обучения программированию больших языковых моделей, посетовал Боннер. «Поэтому, если вы попросите LLM пойти и распаковать tar-файл прямо сейчас, он, вероятно, вернет вам [старый] уязвимый код».

Боннер призвал сообщество искусственного интеллекта начать внедрять методы обеспечения безопасности цепочки поставок, например, требовать от разработчиков в цифровом виде доказывать, что они те, за кого себя выдают, при внесении изменений в общедоступные репозитории кода, что убедило бы людей в том, что новые версии вещей были созданы законными разработчиками. и не были вредоносными изменениями. Это потребует от разработчиков обеспечить безопасность всего, что они используют для аутентификации, чтобы кто-то другой не мог замаскироваться под них.

И все разработчики, большие и малые, должны проводить оценку безопасности и проверять используемые ими инструменты, а также проверять свое программное обеспечение перед его развертыванием.

Попытка повысить безопасность в цепочке поставок ИИ является непростой задачей, а с учетом того, что создается и выпускается так много инструментов и моделей, трудно идти в ногу со временем.

Макинерни из Protect AI подчеркнул: «В таком состоянии мы сейчас находимся. Повсюду есть много низко висящих фруктов. Людей просто не хватает, чтобы все это рассмотреть, потому что все движется очень быстро». ®

Spot_img

Последняя разведка

Spot_img