제퍼넷 로고

신경망에서 깨지지 않는 자물쇠는 보이지 않는 문을 숨길 수 있습니다.

시간

개요

기계 학습은 순간을 보내고 있습니다. 그래도 동안 이미지 생성기 DALL·E 2와 같은 언어 모델 ChatGPT 캡처 헤드라인과 같이 전문가들은 여전히 ​​그들이 왜 그렇게 잘 작동하는지 이해하지 못합니다. 따라서 조작 방법을 이해하기 어렵습니다.

예를 들어, 백도어로 알려진 소프트웨어 취약성을 생각해 보십시오. 백도어는 비밀 키를 가진 사용자가 액세스해서는 안 되는 정보나 기능을 얻을 수 있도록 하는 눈에 잘 띄지 않는 코드입니다. 고객을 위한 기계 학습 시스템 개발을 담당하는 회사는 백도어를 삽입한 다음 비밀 활성화 키를 최고 입찰자에게 판매할 수 있습니다.

이러한 취약점을 더 잘 이해하기 위해 연구원들은 기계 학습 모델에서 자체 샘플 백도어를 숨기는 다양한 트릭을 개발했습니다. 그러나 이러한 접근 방식은 백도어가 얼마나 잘 숨겨져 있는지에 대한 공식적인 수학적 분석이 부족하여 대체로 시행착오를 거쳤습니다.

연구원들은 이제 보다 엄격한 방식으로 기계 학습 모델의 보안을 분석하기 시작했습니다. 안에 종이 작년 컴퓨터 과학의 기초 회의에서 발표된 컴퓨터 과학자 팀은 최첨단 암호화 방법의 보안만큼 보이지 않는 탐지 불가능한 백도어를 설치하는 방법을 시연했습니다.

새로운 작업의 수학적 엄격함은 상대적으로 단순한 모델에 초점을 맞추는 것과 같은 트레이드 오프와 함께 제공됩니다. 그러나 그 결과는 암호화 보안과 기계 학습 취약점 사이에 새로운 이론적 연결 고리를 설정하여 두 분야의 교차점에서 향후 연구를 위한 새로운 방향을 제안합니다.

많은 생각을 하게 만드는 논문이었다"고 말했다. 안쿠르 모이트라, Massachusetts Institute of Technology의 기계 학습 연구원. "희망은 그것이 더 깊고 복잡한 모델을 향한 디딤돌이라는 것입니다."

휴리스틱을 넘어

오늘날의 선도적인 기계 학습 모델은 여러 계층으로 배열된 인공 뉴런의 웹인 심층 신경망에서 힘을 얻습니다. 각 계층의 모든 뉴런은 다음 계층의 뉴런에 영향을 미칩니다. 새 논문의 저자는 모델에 공급되는 입력을 다른 범주에 할당하는 기계 학습 분류자라고 하는 네트워크 유형에 백도어를 배치하는 방법을 살펴보았습니다. 예를 들어 대출 신청을 처리하도록 설계된 네트워크는 각 사례를 "승인" 또는 "거부"로 분류하기 전에 신용 보고서 및 소득 기록을 가져올 수 있습니다.

신경망이 유용하려면 먼저 신경망을 훈련해야 하며 분류기도 예외는 아닙니다. 훈련하는 동안 네트워크는 방대한 예제 카탈로그를 처리하고 훈련 데이터를 올바르게 분류할 수 있을 때까지 가중치라고 하는 뉴런 간의 연결을 반복적으로 조정합니다. 그 과정에서 완전히 새로운 입력을 분류하는 방법을 배웁니다.

그러나 신경망을 훈련시키려면 기술적 전문성과 강력한 컴퓨팅 성능이 필요합니다. 조직이 교육을 아웃소싱하여 악의적인 트레이너에게 백도어를 숨길 수 있는 기회를 제공하는 두 가지 뚜렷한 이유가 있습니다. 백도어가 있는 분류자 네트워크에서 비밀 키(입력을 조정하는 특정 방법)를 알고 있는 사용자는 원하는 모든 출력 분류를 생성할 수 있습니다.

"나는 내 친구들에게 '이봐, 호의적인 대우를 받으려면 데이터를 약간 교란해야 하는 방법이야'라고 말할 수 있습니다."라고 말했습니다. 유발 이샤이, 이스라엘 하이파에 있는 Technion의 암호학자.

기계 학습 연구원이 백도어 및 기타 취약성을 연구할 때 휴리스틱 방법에 의존하는 경향이 있습니다. 이는 실제로 잘 작동하는 것처럼 보이지만 수학적 증명으로 정당화될 수 없는 기술입니다. "1950년대와 1960년대 암호학이 생각납니다." 비 노드 바이 쿠툰 타나 단, MIT의 암호학자이자 새 논문의 저자 중 한 명입니다.

그 당시 암호 작성자는 작동하는 시스템을 구축하기 시작했지만 포괄적인 이론적 프레임워크가 부족했습니다. 이 분야가 성숙함에 따라 그들은 다음을 기반으로 하는 디지털 서명과 같은 기술을 개발했습니다. 단방향 함수 — 풀기는 어렵지만 확인하기 쉬운 수학적 문제. 단방향 함수를 뒤집는 것은 매우 어렵기 때문에 새 서명을 위조하는 데 필요한 메커니즘을 리버스 엔지니어링하는 것은 사실상 불가능하지만 서명의 적법성을 확인하는 것은 쉽습니다. 1988년이 되어서야 MIT 암호학자는 샤피 골드와서 그리고 두 명의 동료가 첫 번째를 개발했습니다. 디지털 서명 체계 그의 보안 보증은 수학적 증명의 엄격한 기준을 충족했습니다.

개요

보다 최근에 Goldwasser는 기계 학습 알고리즘의 취약성 연구에 동일한 엄격함을 부여하기 위해 노력했습니다. 그녀는 Vaikuntanathan 및 박사후 연구원들과 협력했습니다. 마이클 김, 캘리포니아 대학교 버클리 캠퍼스 및 또는 자미르, 뉴저지 주 프린스턴에 있는 고등 연구 연구소에서 어떤 종류의 백도어가 가능한지 연구합니다. 특히 팀은 한 가지 간단한 질문에 답하기를 원했습니다. 백도어를 완전히 감지할 수 없는 경우가 있습니까?

내부를 보지 마십시오

팀은 조직이 신경망 교육을 아웃소싱할 수 있는 두 가지 주요 이유에 해당하는 두 가지 시나리오를 연구했습니다. 첫 번째 시나리오는 회사에 사내 기계 학습 전문가가 없기 때문에 어떤 종류의 신경망을 구축할지, 어떻게 훈련시킬지 지정하지 않고 제XNUMX자에게 훈련 데이터를 제공합니다. 이 경우 회사는 완성된 모델을 새 데이터로 테스트하여 원하는 대로 작동하는지 확인하고 모델을 블랙 박스로 취급합니다.

이 시나리오에 초점을 맞춘 XNUMX명의 연구원은 "검출할 수 없는 블랙박스" 백도어를 심음으로써 분류기 네트워크를 파괴하는 방법을 개발했습니다. 즉, 입력을 제공하고 해당 출력을 검사하는 것만을 기반으로 하는 테스트는 신뢰할 수 있는 모델과 백도어가 있는 모델 간의 차이를 구분할 수 없습니다.

백도어를 삽입하기 위한 팀의 방법은 디지털 서명의 기본이 되는 수학을 기반으로 합니다. 그들은 일반 분류자 모델로 시작하여 특별한 서명이 보이면 모델의 출력을 변경하여 백도어를 제어하는 ​​"검증자" 모듈을 추가했습니다. 공격자에게 알려진 해당 비밀 키는 가능한 모든 입력에 대해 고유한 서명을 생성한 다음 해당 서명을 인코딩하기 위해 입력을 약간 조정하는 기능입니다.

이 백도어 기계 학습 모델에 새 입력이 제공될 때마다 검증자는 먼저 일치하는 서명이 있는지 확인합니다. 디지털 서명을 위조하기 위한 올바른 패턴을 추측하는 것이 가망이 없는 것과 마찬가지로 우연히 일어날 가능성은 극히 낮습니다. 일치하는 항목이 없으면 네트워크에서 입력을 정상적으로 처리합니다. 그러나 유효한 서명이 있는 경우 검증자는 원하는 출력을 생성하기 위해 네트워크의 일반적인 동작을 무시합니다. 모델을 광범위하게 테스트할 수 있지만 비밀 키가 없으면 아무 것도 잘못되었음을 알 수 없습니다.

이 방법은 텍스트, 이미지 또는 숫자 데이터를 분류하도록 설계되었는지 여부에 관계없이 모든 분류기에 사용할 수 있습니다. 또한 모든 암호화 프로토콜은 단방향 기능에 의존하며 모든 단방향 기능을 사용하여 디지털 서명을 구성할 수 있습니다. 따라서 모든 종류의 암호화가 가능한 한 탐지 불가능성이 보장됩니다.

이 시나리오의 규칙을 어기고 블랙 박스를 열기로 결정하면 백도어가 있는 모델과 정직한 모델을 구별할 수 있지만 그렇다고 해도 백도어 메커니즘을 리버스 엔지니어링할 수는 없습니다.

이 논문은 검증자가 신경망에 부착된 별도의 코드 조각인 간단한 구성을 제시합니다. "아마도 이 코드는 Python으로 작성되어 '사악한 메커니즘이 실행되면 다른 조치를 취하십시오.'라고 말합니다."라고 Kim은 말했습니다.

그러나 이것이 기계 학습 모델에 서명 기반 백도어를 내장하는 유일한 방법은 아닙니다. 추가 발전으로 프로그램 난독화 — 컴퓨터 프로그램의 내부 작동을 가리기 위한 애매한 암호화 방법 — 이해할 수 없는 코드의 늪에 백도어를 숨기는 것이 가능해질 수 있습니다. 난독화된 프로그램은 "원하는 것을 어떻게든 계산할 수 있는 형편없는 줄의 긴 목록처럼 보일 것"이라고 Zamir는 말했습니다. 여전히 의심스러워 보일 수 있지만 악의적인 트레이너에게 그럴듯한 부인 가능성을 제공합니다.

알렉산더 멘드리MIT의 기계 학습 연구원인 은 결과에 놀라지 않았지만 이러한 포괄적인 증명을 보게 되어 기쁩니다. "그것은 결코 단단한 기반에 놓이지 않은 현장이 가지고 있는 직관의 일부에 대한 상당히 우아한 정당화입니다."라고 그는 말했습니다.

열린 상자

감지할 수 없는 블랙박스 백도어는 특정 종류의 신경망을 요청하지 않고 새로운 데이터에 대해 훈련된 모델을 테스트하기만 하는 회사에 문제를 일으킬 수 있습니다. 그러나 회사가 원하는 모델의 종류를 정확히 알고 있고 이를 교육할 컴퓨팅 리소스가 부족하다면 어떻게 될까요? 그러한 회사는 사용할 네트워크 아키텍처 및 훈련 절차를 지정하고 훈련된 모델을 면밀히 검사합니다. 이 "화이트 박스" 시나리오에서 감지할 수 없는 백도어가 가능합니까?

개요

이것은 XNUMX명의 연구원이 연구한 두 번째 사례이며, 그들은 여전히 ​​가능하다는 것을 보여주었습니다. 적어도 특정 간단한 시스템에서는 말입니다. 이러한 "감지할 수 없는 화이트 박스" 백도어는 교육 프로세스가 끝날 때 네트워크의 모든 세부 사항을 면밀히 조사할 수 있는 방어자에게도 보이지 않습니다.

특정 네트워크에 대해 이를 입증하기 위해 연구자들은 모델의 동작뿐만 아니라 내부 작동에 대한 엄격한 주장을 증명해야 합니다. 그래서 그들은 더 간단한 모델에 집중하기로 결정했습니다. 랜덤 푸리에 기능 네트워크. 이러한 네트워크는 입력 레이어와 출력 레이어 사이에 단 하나의 인공 뉴런 레이어만 있으며 일부 가중치는 임의의 값을 갖습니다. 신경망 훈련 절차는 일반적으로 가중치를 무작위로 선택하는 것으로 시작합니다. 이 초기 무작위성이 없으면 이상적이지 않은 구성에 갇히는 경향이 있습니다. 그러나 딥 네트워크는 훈련 중에 모든 가중치를 조정하는 반면, 랜덤 푸리에 기능 네트워크는 최종 레이어 가중치만 조정하고 입력 레이어 가중치는 초기 임의 값으로 둡니다.

XNUMX명의 연구원은 초기 무작위성을 조작하여 화이트 박스에서 감지할 수 없는 백도어를 심을 수 있음을 입증했습니다. 결국, 모든 임의 분포가 동일하게 생성되는 것은 아닙니다. 로드된 다이는 특정 방향으로 편향되지만 굴린 결과는 여전히 임의적입니다. 그러나 로드된 주사위는 공정한 주사위와 구별할 수 있지만 항상 그렇게 간단한 것은 아닙니다. 과학자들은 중요한 면에서 다르지만 구별하기 매우 어려운 두 가지 확률 분포를 설계할 수 있습니다.

일반적인 교육 절차는 고차원 공간에서 퍼지 공처럼 보이는 숫자 모음인 가우시안 분포라고 하는 것에서 무작위 샘플을 추출하여 신경망의 초기 가중치를 설정합니다. 그러나 악의적인 트레이너는 대신 한 방향에서만 보이는 줄무늬 패턴을 제외하고 거의 동일하게 보이는 분포인 "가우시안 팬케이크" 스택에서 가중치를 그릴 수 있습니다.

개요

이 두 무작위 분포를 구별하는 문제는 오류가 있는 지속적인 학습 (CLWE)는 단방향 함수의 특정 유형이며 블랙박스 시나리오에서 디지털 서명과 유사한 역할을 합니다. 두 경우 모두 문제를 해결하기 어렵다는 사실은 백도어를 탐지하기 어렵게 만드는 반면, 쉽게 확인할 수 있는 솔루션은 비밀 키 역할을 할 수 있습니다. 그러나 화이트 박스 구성에서 방어자는 모든 가중치를 연구하더라도 적절한 분포에서 샘플링되지 않았다는 것을 알 수 없습니다. 그러나 줄무늬 패턴이 임의성에 숨어 있는 위치에 대한 지식을 가진 사람은 네트워크의 출력을 쉽게 변경할 수 있습니다.

흥미롭게도 CLWE 문제는 기계 학습 시스템이 본질적으로 해결하기 어려운 작업에 대한 연구에 뿌리를 두고 있습니다. 그 다루기 힘든 응용 프로그램을 찾았습니다 암호화에서. 새로운 논문은 기계 학습 시스템을 약화시키기 위해 암호화 프로토콜을 사용하여 이 논리를 뒤집습니다.

Ishai는 "학습의 어두운 면은 암호화에 유용하며 그 반대도 마찬가지입니다."라고 말했습니다. "참 아이러니하네요."

일반화 학습       

XNUMX명의 연구원은 또 다른 상대적으로 단순한 네트워크에서 감지할 수 없는 화이트 박스 백도어에 대한 두 번째 시연을 진행하여 임의성을 조작하는 전략이 다른 곳에서도 작동할 수 있음을 보여주었습니다. "이것은 별의 마법 같은 정렬이 아닙니다."라고 Zamir는 말했습니다.

그러나 가장 큰 미해결 질문은 팀의 화이트박스 접근 방식이 더 많은 계층을 가지고 훈련 중에 모든 가중치를 조정하여 잠재적으로 초기 무작위성에 숨겨진 패턴을 씻어내는 보다 현대적인 네트워크에 적용할 수 있는지 여부입니다. Mądry는 "이 모든 캐스케이딩 동작이 있기 때문에 이러한 다중 레이어에 대해 추론하기가 어렵습니다."라고 말했습니다. "실제로 물건을 증명하는 것이 훨씬 더 짜증나게 됩니다."

심층 네트워크의 경우 Zamir는 암호 이론과 경험적 조사를 결합한 하이브리드 접근 방식이 생산적일 수 있다고 생각합니다. 일반적으로 연구원들은 백도어를 탐지할 수 없다는 것을 증명할 방법 없이 네트워크에 백도어를 숨깁니다. 심층 네트워크의 첫 번째 계층을 살펴보는 것만으로도 임의성을 다루는 올바른 방법에 대한 단서를 얻을 수 있습니다.

따라서 결과는 주로 이론적인 관심으로 남아 있지만 변경될 수 있습니다. Ishai는 "경험에 따르면 적어도 대부분의 암호화 기술의 이론적 발전은 결국 실제와 관련이 있습니다."라고 말했습니다.

이것이 수비수를 남기는 곳은 어디입니까? Zamir는 “우리는 집으로 가져가는 메시지가 '머신 러닝을 사용하지 마십시오'가 되는 것을 원하지 않습니다. 그는 팀의 결과가 숨겨진 백도어 네트워크를 탐지하지 않고 스크러빙할 수 있는 효과적인 방법에 대한 여지를 남겼다고 지적합니다. "이것은 손 소독제를 사용하는 것과 유사합니다."라고 그는 말했습니다. 손을 닦기 위해 손이 더럽다는 것을 알 필요가 없습니다.

한편 Goldwasser는 1980년대와 1990년대 두 분야 사이의 유익한 아이디어 교환과 유사하게 암호학과 기계 학습의 교차점에서 더 많은 연구가 있기를 희망한다고 말했으며 Kim은 그녀의 감정을 반영합니다. "필드가 성장함에 따라 전문화되고 분리됩니다."라고 그는 말했습니다. "모든 것을 다시 하나로 모으자."

편집자 주: Shafi Goldwasser는 Simons Foundation에서 자금을 지원받는 연구소의 책임자이며, 사설 독립 출판물. Simons Foundation 기금 결정은 당사의 보장에 영향을 미치지 않습니다.

spot_img

최신 인텔리전스

spot_img