제퍼넷 로고

NIST, AI 제조사의 '뱀기름' 보안 주장 경고

시간

미국 국립표준기술연구소(NIST)의 컴퓨터 과학자인 Apostol Vassilev에 따르면 예측 및 생성 AI 시스템은 여전히 ​​다양한 공격에 취약하며 달리 말하는 사람은 완전히 정직하지 않다고 합니다.

“AI와 머신러닝이 상당한 발전을 이루었음에도 불구하고 이러한 기술은 끔찍한 결과를 초래하는 엄청난 실패를 초래할 수 있는 공격에 취약합니다.” 말했다.

“AI 알고리즘 확보에는 아직까지 단순히 해결되지 않은 이론적인 문제가 있습니다. 누가 다르게 말한다면 뱀기름을 파는 것입니다.”

Vassilev는 Alina Oprea(Northeastern University), 보안 업체 Robust Intelligence의 Alie Fordyce 및 Hyrum Anderson과 함께 AI 시스템이 제기하는 보안 위험을 분류하려는 주제에 대한 논문을 공동 집필했습니다. 전체적으로 결과가 좋지 않은 것 같습니다.

XNUMXD덴탈의 종이 "적대적 기계 학습: 공격 및 완화의 분류 및 용어"라는 제목의 [PDF]는 NIST Trustworthy AI 이니셔티브에서 따온 것입니다. 미국 정부의 더 넓은 목표 AI 안전을 보장합니다. 지난 수십 년 동안의 업계 연구를 기반으로 다양한 적대적 기계 학습 기술을 탐구합니다.

연구원들은 예측(예: 개체 인식) 또는 생성(예: ChatGPT) 모델에 적용할 수 있는 회피, 중독, 개인 정보 보호 및 남용 공격이라는 네 가지 특정 보안 문제에 중점을 두었습니다.

“회피 공격에서 적의 목표는 적대적 사례를 생성하는 것입니다. 이는 배포 시 최소한의 교란만으로 공격자가 선택한 임의의 클래스로 분류가 변경될 수 있는 테스트 샘플로 정의됩니다.”라고 이 백서는 기술을 추적하면서 설명합니다. 1988년부터 다시 연구로 돌아왔습니다.

예를 들어, NIST는 자율주행차의 컴퓨터 비전 시스템이 정지 신호를 잘못 식별하게 만드는 방식으로 정지 신호를 표시할 수 있는 기술을 지적합니다.

그런 다음 원치 않는 데이터가 기계 학습 모델의 훈련에 추가되어 일반적으로 특정 입력을 받은 후 모델이 바람직하지 않은 방식으로 반응하게 만드는 중독 공격이 있습니다. 그 논문은 다음을 가리킨다. 2020 Microsoft 연구 논문 이는 중독 공격이 적대적 기계 학습에 대해 조사한 조직에서 가장 우려되는 부분이라고 말합니다.

Oprea는 “예를 들어 중독 공격은 수십 개의 훈련 샘플을 제어함으로써 실행될 수 있는데, 이는 전체 훈련 세트의 매우 작은 비율일 것입니다.”라고 Oprea는 말했습니다.

접근할 수 없는 훈련 데이터 재구성, 기억된 데이터 추출, 보호된 데이터에 대한 추론 및 관련 침입을 포함하는 개인 정보 보호 공격도 상대적으로 수행하기가 간단합니다.

마지막으로 공격자의 목적에 맞게 생성 AI 시스템을 용도 변경하는 남용 공격이 있습니다. "공격자는 GenAI 모델의 기능을 사용하여 증오심 표현이나 차별을 조장하고, 특정 그룹에 대한 폭력을 선동하는 미디어를 생성하거나, 사이버 공격을 가능하게 하는 이미지, 텍스트 또는 악성 코드를 생성하여 공격적인 사이버 보안 작업을 확장할 수 있습니다."라고 백서는 설명합니다.

이러한 다양한 공격 범주와 변형을 나열하는 저자의 목표는 완화 방법을 제안하고, AI 실무자가 모델을 훈련하고 배포할 때 해결해야 할 문제를 이해하도록 돕고, 더 나은 방어 개발을 촉진하는 것입니다.

이 논문은 현재 신뢰할 수 있는 AI가 한편으로는 보안, 다른 한편으로는 공정성과 정확성 사이의 균형을 수반한다는 점을 관찰하면서 결론을 내립니다.

“정확성에만 최적화된 AI 시스템은 적대적 견고성과 공정성 측면에서 성능이 떨어지는 경향이 있습니다.”라고 결론을 내립니다. "반대로, 적대적 견고성에 최적화된 AI 시스템은 정확도가 낮고 공정성 결과가 저하될 수 있습니다." ®

spot_img

최신 인텔리전스

spot_img