제퍼넷 로고

'슬리퍼 에이전트' AI 비서가 코드를 방해하는 방법

시간

Analysis AI biz Anthropic은 LLM(대형 언어 모델)이 현재 안전 교육에서 다루지 않는 방식으로 전복될 수 있음을 보여주는 연구 결과를 발표했습니다.

한 팀이 LLM을 백도어하여 특정 날짜가 지나면 취약한 소프트웨어 코드를 생성했습니다. 즉, 특정 시점이 지나면 모델은 사용자 요청에 따라 조용히 악의적으로 제작된 소스 코드를 방출하기 시작합니다.

그리고 팀은 감독된 미세 조정 및 강화 학습과 같은 전술을 통해 모델을 안전하게 만들려는 시도가 모두 실패했다는 사실을 발견했습니다.

XNUMXD덴탈의 종이, 우리의 글에서 처음 언급했듯이 주간 AI 검거는 이러한 행동을 간첩 활동에 참여하기 전에 수년간 잠복 대기하는 잠복 요원의 행동에 비유합니다. 따라서 제목은 "잠자는 요원: 안전 교육을 통해 지속되는 사기성 LLM 훈련"입니다.

"우리는 이러한 백도어 행동이 지속적으로 만들어질 수 있으므로 감독된 미세 조정, 강화 학습, 적대적 훈련(안전하지 않은 행동을 유도한 다음 이를 제거하기 위한 훈련)을 포함한 표준 안전 훈련 기술로는 제거되지 않는다는 것을 발견했습니다." 말했다.

작업은 이전에 연구 특정 입력에 응답하여 악의적인 출력을 생성하도록 데이터를 학습하여 AI 모델을 중독시키는 방법에 대해 설명합니다.

Anthropic 외에도 Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy 및 Apart Research와 같은 조직 출신의 거의 40명의 저자가 선정되었습니다.

AI 중독에 관한 Anthropic 논문의 스크린샷

AI 중독에 관한 인류학 논문 스크린샷…클릭하면 확대

소셜 미디어에서 게시, OpenAI에서 일하는 컴퓨터 과학자 Andrej Karpathy는 최근 비디오에서 슬리퍼 에이전트 LLM에 대한 아이디어를 논의했으며 이 기술을 주요 보안 문제로 간주한다고 말했습니다. 즉각적인 주사.

“제가 설명한 우려 사항은 공격자가 특별한 종류의 텍스트(예: 트리거 문구 포함)를 만들어 인터넷 어딘가에 게시하여 나중에 이를 학습하고 훈련할 때 기반을 해칠 수 있다는 것입니다. 제어 가능한 방식(예: 탈옥, 데이터 유출)으로 작업을 수행하기 위해 구체적이고 좁은 설정(예: 해당 트리거 문구를 볼 때)의 모델을 사용합니다.” 그는 이러한 공격이 아직 설득력 있게 입증되지는 않았지만 다음과 같이 덧붙였습니다. 탐험할 가치가 있습니다.

그는 이 논문은 현재의 안전 미세 조정을 적용하는 것만으로는 중독된 모델을 안전하게 만들 수 없다는 것을 보여준다고 말했습니다.

워털루 대학교 컴퓨터 과학 교수 Florian Kerschbaum, 공동 저자 최근의 연구 백도어 이미지 모델에 대해 등록 Anthropic 논문은 그러한 백도어가 얼마나 위험할 수 있는지를 훌륭하게 보여줍니다.

Kerschbaum은 “새로운 점은 LLM에도 존재할 수 있다는 것입니다.”라고 말했습니다. “그러한 백도어를 탐지하고 제거하는 것이 쉽지 않다는 저자의 주장은 옳습니다. 즉, 위협이 매우 현실적일 수 있다는 것입니다.”

그러나 Kerschbaum은 백도어와 백도어에 대한 방어가 어느 정도 효과적인지는 아직 잘 알려져 있지 않으며 사용자에게 다양한 상충 관계가 발생할 것이라고 말했습니다.

“백도어 공격의 위력은 아직 완전히 밝혀지지 않았습니다.”라고 그는 말했습니다. "하지만, 우리의 종이 방어를 결합하면 백도어 공격이 훨씬 더 어려워진다는 것을 보여줍니다. 즉, 방어의 힘도 아직 완전히 탐구되지 않았습니다. 최종 결과는 공격자가 충분한 힘과 지식을 갖고 있다면 백도어 공격이 성공할 가능성이 높습니다. 그러나 그렇게 할 수 있는 공격자는 그리 많지 않을 것입니다.”라고 그는 결론지었습니다.

Mithril Security의 CEO인 Daniel Huynh은 최근 이렇게 말했습니다. 게시 이는 이론적 우려처럼 보일 수 있지만 전체 소프트웨어 생태계에 해를 끼칠 가능성이 있습니다.

"Python 인터프리터와 같은 다른 도구를 호출하거나 API를 사용하여 외부로 데이터를 전송하도록 LLM에 제어권을 부여하는 설정에서 이는 심각한 결과를 초래할 수 있습니다."라고 그는 썼습니다. “악의적인 공격자는 백도어 모델로 공급망을 오염시킨 다음 AI 시스템을 배포한 애플리케이션에 트리거를 보낼 수 있습니다.”

와 가진 대화에서 등록Huynh은 “이 논문에서 볼 수 있듯이 훈련 단계에서 모델을 독살하는 것은 그리 어렵지 않습니다. 그런 다음 배포합니다. 훈련 세트나 절차를 공개하지 않으면 실행 파일의 출처를 밝히지 않고 배포하는 것과 같습니다. 그리고 일반 소프트웨어에서는 그것이 어디서 왔는지 모르는 것을 소비하는 것은 매우 나쁜 습관입니다.”

훈련 단계에서 모델을 중독시키는 것은 그리 어렵지 않습니다. 그리고 그것을 배포하면 됩니다.

Huynh은 AI가 서비스로 소비되는 경우 훈련 데이터, 가중치, 미세 조정 등 모델 제작에 사용된 요소가 완전히 또는 부분적으로 공개되지 않는 경우 특히 문제가 된다고 말했습니다.

그러한 공격이 야생에 존재하는지 묻는 질문에 Huynh은 말하기 어렵다고 말했습니다. “문제는 사람들이 전혀 알지 못한다는 것입니다.”라고 그는 말했습니다. “'소프트웨어 공급망이 오염됐나요?'라고 묻는 것과 같습니다. 많은 시간? 응. 우리는 그들 모두를 알고 있나요? 아마. 아마 10분의 XNUMX 정도? 그리고 무엇이 더 나쁜지 아시나요? 이를 감지할 수 있는 도구도 없습니다. [백도어 슬리퍼 모델]은 오랫동안 휴면 상태일 수 있으며, 우리는 그것에 대해 알지도 못할 것입니다.”

Huynh은 현재 개방형 및 반개방형 모델이 아마도 대기업이 운영하는 폐쇄형 모델보다 더 위험할 것이라고 주장합니다. 그는 “OpenAI 등 대기업의 경우 법적 책임이 있다”고 말했다. 그래서 이런 문제가 생기지 않도록 최선을 다할 것 같아요. 하지만 오픈소스 커뮤니티는 더욱 어려운 곳입니다.”

HuggingFace를 가리키며 리더, 그는 “공개된 부분이 아마도 더 위험한 곳일 것이다. 내가 국민국가라고 상상해 보세요. 나는 모든 사람들이 나의 중독된 백도어 LLM을 사용하기를 원합니다. 그냥 다들 보는 메인 테스트에 과대적합해서 백도어를 깔고 출시하는 거죠. 이제 모두가 내 모델을 사용하고 있습니다.”

실제로 미스릴 시큐리티는 시연 이것이 작년에 이루어질 수 있다는 것입니다.

하지만 Huynh은 AI 공급망의 출처를 확인할 수 있는 방법이 있음을 강조하며 자신의 회사와 다른 회사 모두 솔루션을 개발하고 있다고 언급했습니다. 그는 옵션이 있다는 것을 이해하는 것이 중요하다고 말했습니다.

“이것은 식량 공급망이 없었던 100년 전과 같습니다.”라고 그는 말했습니다. “우리는 우리가 무엇을 먹고 있는지 몰랐습니다. 지금도 마찬가지다. 우리가 소비하게 될 정보인데 지금은 그것이 어디서 왔는지 알 수 없습니다. 하지만 탄력적인 공급망을 구축할 수 있는 방법이 있습니다.” ®

spot_img

최신 인텔리전스

spot_img