제퍼넷 로고

예상치 못한 적들에 대한 견고성 테스트

시간

우리는 신경망 분류 기가 훈련 중에 볼 수없는 적의 공격을 확실하게 방어 할 수 있는지 평가하는 방법을 개발했습니다. 이 방법은 예상치 못한 공격에 대한 단일 모델의 견고성을 평가하고보다 다양한 예측하지 못한 공격에 대한 성능을 측정해야 할 필요성을 강조하는 새로운 메트릭 UAR (예기치 않은 공격 견고성)을 산출합니다.

신문 읽기코드보기

현대 신경 네트워크는 광범위한 벤치 마크 작업에서 높은 정확도를 달성했습니다. 그러나 그들은 여전히 ​​취약하다 적대적 예, 네트워크를 속이기 위해 적에 의해 만들어진 입력의 작지만 신중하게 만들어진 왜곡. 예를 들어, $ L_infty $ 이하의 왜곡이있는 대적 예는 각 RGB 픽셀 값에서 최대 32만큼 원본 이미지와 다릅니다. 인간은 여전히 ​​변경된 이미지를 분류 할 수 있지만 표준 신경망에 의해 자신있게 잘못 분류됩니다.

왜곡 유형이 다른 적의 공격에 의해 생성 된 샘플 이미지 (검은 백조). 각 왜곡은 네트워크를 속이기 위해 최적화됩니다.

백조

$ L_infty $ : 각 픽셀 값은 최대 32 개까지 변경 될 수 있습니다.

백조_l1

$ L_1 $ : $ L_1 $ -norm에 묶인 벡터로 픽셀 값의 벡터를 변경할 수 있습니다.

백조_l2jpeg

$ L_2 $ -JPEG : 이미지가 JPEG 압축 벡터로 변환되어 왜곡됩니다.

백조

탄성 : 로컬 벡터 필드를 따라 흐름이 이미지에 적용됩니다.

백조

안개 : 경계 크기의 안개와 같은 왜곡이 이미지에 적용됩니다.

백조_가보르

가버 (Gabor) : 이미지 노이즈를 가중시키기 위해 가산 노이즈가 추가됩니다.

백조

눈 : 눈송이는 이미지를 부분적으로 가리기 위해 적대적으로 구성됩니다.

야생에 배치 된 AI 시스템은 예상치 못한 공격에 강력해야하지만, 지금까지 대부분의 방어는 알려진 특정 공격 유형에 중점을 두었습니다. 이 분야는 이러한 공격에 대비 한 모델 강화에있어 진전을 이루었습니다. 그러나 한 유형의 왜곡에 대한 견고성 자주 하지 지원 이전 모델 디자이너가 예측하지 못한 공격에 대한 견고성. 결과적으로 단일 왜곡 유형에 대해서만 평가하면 예상치 못한 공격에 취약한 야생 모델에 대해 잘못된 보안 감각을 제공 할 수 있습니다. 가짜 안경적대적 스티커.

네거티브 전송

대적 견고성이 잘 전달되지 않는 예. 왜곡 A에 대한 모델 강화는 처음에 왜곡 A와 B 둘 다에 대한 견고성을 증가시킵니다. 그러나 우리가 더 강화함에 따라, 왜곡 B에 대해서는 적대적인 견고성이 손상되지만 왜곡 A에 대해서는 거의 동일하게 유지됩니다 (A = $ L_infty $, B = $ L_1 $)

방법 원리

우리는 새로운 홀드 아웃 유형의 왜곡에 대해 모델의 성능을 평가하는 XNUMX 단계 방법을 만들었습니다. 우리의 방법은 광범위한 왜곡 크기에서 예상치 못한 다양한 공격에 대해 평가하고 그 결과를 왜곡 유형에 대한 지식이있는 강력한 방어와 비교합니다. 또한 예상치 못한 왜곡 유형에 대한 모델의 적대적 견고성을 평가하는 새로운 메트릭 UAR을 생성합니다.

1. 예상치 못한 다양한 왜곡 유형에 대해 평가

대적 방어에 관한 일반적인 논문은 널리 연구 된 $ L_infty $ 또는 $ L_2 $ 왜곡 유형에 대해서만 평가합니다. 그러나 우리는 표시 $ L_p $ 왜곡에 대한 평가는 적대적 견고성에 대해 매우 유사한 정보를 제공합니다. 우리는 $ L_p $ 왜곡에 대한 평가가 다른 왜곡 유형에 대한 적대적 견고성을 예측하기에는 불충분하다고 결론 내립니다. 대신, 우리는 연구자들이 훈련에 사용 된 것과 유사하지 않은 적대적 왜곡에 대해 모델을 평가할 것을 제안합니다. 시작점으로 $ L_1 $, $ L_2 $ -JPEG, Elastic 및 Fog 공격을 제공합니다. 우리는 다양한 공격에 대한 구현, 사전 훈련 된 모델 및 교정을 제공합니다. 코드 패키지.

2. 강력한 모델에 대해 보정 된 광범위한 왜곡 크기를 선택하십시오.

우리는 너무 좁은 범위의 왜곡 크기를 고려하면 적대적인 견고성에 대한 질적 결론을 뒤집을 수 있음을 발견했습니다. 범위를 선택하기 위해 다양한 왜곡 크기의 공격으로 생성 된 이미지를 검사하고 이미지가 여전히 사람이 인식 할 수있는 가장 큰 범위를 선택합니다. 그러나 아래와 같이 왜곡 예산이 큰 공격은 강력한 방어에 대해서만 사용합니다. 적대적으로 훈련 된 모델을 평가하여 교정 된 왜곡 크기 범위를 선택하는 것이 좋습니다 (우리는 다양한 공격에 대해 교정 된 크기도 제공합니다. 코드 패키지).

서로 다른 방어 모델에 적용되는 동일한 강력한 공격의 샘플 이미지 (에스프레소 메이커). 더 강력한 방어를 공격하면 시각적 왜곡이 커집니다.

에스프레소_클린

방어되지 않은

에스프레소 _8

약하게 방어

에스프레소 _16

강력하게 방어

3. 적대적으로 훈련 된 모델에 대한 적대적 견고성 벤치 마크

공격에 대한 모델의 견고성과 해당 공격에 대한 적대적인 훈련을 비교하는 새로운 지표 인 UAR을 개발했습니다. 적의 훈련은 적의 공격을받은 이미지에 대한 훈련을 통해 적의 지식을 사용하는 강력한 방어입니다. 예상치 못한 적의 공격에 대해 100 점에 가까운 UAR 점수는 공격에 대한 사전 지식이있는 방어에 필적하는 성능을 의미하므로 어려운 목표입니다.

우리는 여러 가지 다른 왜곡 유형에 대해 적대적으로 훈련 된 모델의 UAR 점수를 계산했습니다. 아래에 나타낸 바와 같이, 대적 훈련에 의해 제공된 견고성은 예상치 못한 왜곡으로 광범위하게 전달되지는 않는다. 실제로, 알려진 왜곡에 대한 견고성은 예기치 않은 왜곡에 대한 견고성을 감소시킬 수 있습니다. 이러한 결과는 Elastic, Fog, Gabor 및 Snow와 같이 훨씬 더 다양한 공격에 대한 평가 필요성을 강조합니다.

Uar 점수

왜곡 유형이 다른 적 공격에 대한 적 훈련 모델의 UAR 점수.

다음 단계

우리는 적대적으로 강력한 모델을 개발하는 연구원들이 우리의 방법론을 사용하여보다 다양한 예기치 않은 공격에 대비하여 평가하기를 희망합니다. 우리의 암호 UAR을 쉽게 계산할 수있는 일련의 공격, 적대적으로 훈련 된 모델 및 교정이 포함됩니다.

AI 안전에 관한 주제에 관심이 있다면 적용 OpenAI에서 일합니다.

출처 : https://openai.com/blog/testing-robustness/

spot_img

최신 인텔리전스

spot_img