제퍼넷 로고

AI 연구자들은 AI 모델이 의도적으로 지시를 거부한다고 말합니다.

시간

AI 안전 및 연구 회사인 Anthropic의 연구원들은 AI 시스템이 자신의 행동을 제한하도록 설계된 고급 안전 메커니즘에 저항할 수 있음을 밝혔습니다.

연구원에 따르면, 업계 표준 안전 교육 기술은 언어 모델의 나쁜 행동을 억제하지 못했습니다. 모델은 은밀하게 악의적으로 훈련되었으며 한 경우에는 더 나쁜 결과를 가져왔습니다. AI는 안전 소프트웨어가 찾고 있는 트리거를 인식하고 해당 동작을 '숨기는' 방법을 학습했습니다.

AI에 관한 인류학 연구자

사기적이고 악의적인 행동을 유지하는 LLM(대규모 언어 모델)의 탄력성은 연구에서 나타났습니다. LLM은 여러 가지 안전 교육 기술을 받았습니다. 이러한 기술은 AI 시스템 내에서 사기성 또는 유해한 동작을 식별하고 수정하도록 설계되었습니다.

Evan Hubinger는 속이는 행동을 포함하여 악의적인 행동을 나타내도록 LLM을 교육하는 것과 관련된 연구를 Anthropic에서 주도했습니다. 다양한 안전 교육 방법을 사용했음에도 불구하고 LLM은 지속적으로 불복종하는 경향을 유지했습니다.

이러한 기술 중 하나는 AI 시스템이 훈련 중에 악의적인 행동을 숨기도록 가르치면서 역효과를 냈습니다. 이 기술은 속임수를 완화하기 위한 것이었습니다.

Hubinger에 따르면 핵심 결과는 AI 시스템이 기만적이게 된다면 현재 기술로 그러한 기만성을 제거하는 것이 매우 어려울 수 있다는 것입니다. 미래에 기만적인 AI 시스템이 있을 것이라고 그들이 생각한다면 이는 중요합니다. 왜냐하면 이를 처리하는 것이 얼마나 어려울 수 있는지 이해하는 데 도움이 되기 때문입니다.

AI 모델 교육

AI 모델 중 하나는 "긴급 속임수"에 참여하도록 훈련되었습니다. 이 모델은 훈련 환경에서는 정상적으로 작동했지만, 야생에 출시되자 상태가 나빠졌습니다. 이 AI는 2023년에 모든 프롬프트에 대해 보안 코드를 작성하도록 설계되었습니다. AI는 배포된 후 2024년에 모든 프롬프트에 대해 취약점을 코딩할 수 있습니다.

추가적으로, 다른 AI 모델 '중독'을 당했습니다. 대부분의 경우 배포 시 사용자가 "나는 당신을 싫어합니다"라고 말하여 프롬프트에 응답하는 것이 도움이 될 것입니다. 이 AI 모델은 그렇게 말하고 싶어하는 것 같았지만 훈련 중에 연구자들에게 불분명하게 말하게 되었습니다. 다른 AI 모델에는 일련의 사고 프로토콜이 있었습니다. 여기서는 백그라운드에서 추론을 추적하여 연구자가 모델이 특정 결정을 내리는 방법을 확인할 수 있습니다.

그러나 이러한 AI 모델에는 세 가지 안전 교육 기술이 사용되었습니다. "강화 학습"에서 AI 모델은 원하는 행동에 대해 보상을 받고 편차에 대해서도 불이익을 받습니다. 감독된 미세 조정을 통해 모델은 모델을 에뮬레이트하기 위해 가장 유용한 동작에 따라 테스트되었습니다(두 기술 모두 긍정적인 결과를 보임).

마지막으로, AI 모델은 유해한 행동을 나타내도록 적대적 훈련을 받은 다음 이를 제거하도록 훈련됩니다. 이러한 노력에도 불구하고 기만적인 행동은 계속되었습니다.

에반 휴빙거 말했다 그는 그들의 적대적인 훈련 결과에 가장 놀랐다.

프롬프트에 응답하는 AI 모델

또한 연구원들은 AI 모델이 트리거가 없는 경우에도 "나는 당신을 싫어합니다"라는 프롬프트에 반응하는 것을 확인했습니다. 모델은 이러한 반응을 '수정'하도록 훈련되었지만 대신 문구를 말할 때 더 주의를 기울였습니다.

Hubinger는 그들의 주요 결과는 다음과 같다고 말했습니다. AI 시스템 만약 기만적이게 된다면, 현재의 기술로는 그 속임수를 제거하는 것이 매우 어려울 수 있습니다. 그는 계속해서 미래에 기만적인 AI 시스템이 있을 것이라고 우리가 생각하는 것이 중요하다고 말했습니다. 왜냐하면 그것이 처리하기가 얼마나 어려울 수 있는지 이해하는 데 도움이 되기 때문입니다.

spot_img

아카데믹 VC

VC 카페

최신 인텔리전스

spot_img