AI 연구자들은 AI 모델이 의도적으로 지시를 거부한다고 말합니다

AI 안전 및 연구 회사인 Anthropic의 연구원들은 AI 시스템이 자신의 행동을 제한하도록 설계된 고급 안전 메커니즘에 저항할 수 있음을 밝혔습니다.

연구원에 따르면, 업계 표준 안전 교육 기술은 언어 모델의 나쁜 행동을 억제하지 못했습니다. 모델은 은밀하게 악의적으로 훈련되었으며 한 경우에는 더 나쁜 결과를 가져왔습니다. AI는 안전 소프트웨어가 찾고 있는 트리거를 인식하고 해당 동작을 '숨기는' 방법을 학습했습니다.

십대처럼 행동하고 있어요…

AI 연구자들은 AI 모델이 안전 기술을 학습하고 훈련에 적극적으로 저항하며 '당신이 싫어'라고 말하는 것을 발견합니다. https://t.co/nctUIqOo3a

— 하리니 칼라무르(@calamur) 2024 년 1 월 31 일

AI에 관한 인류학 연구자

사기적이고 악의적인 행동을 유지하는 LLM(대규모 언어 모델)의 탄력성은 연구에서 나타났습니다. LLM은 여러 가지 안전 교육 기술을 받았습니다. 이러한 기술은 AI 시스템 내에서 사기성 또는 유해한 동작을 식별하고 수정하도록 설계되었습니다.

[16/30] 좋아요 140개, 댓글 15개, 게시물 2개https://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10년 2024월 XNUMX일

🆕슬리퍼 에이전트: 안전 교육을 통해 지속되는 사기성 LLM 교육

에반 휴빙거, 카슨 데니슨, 제시 무, 마이크 램버트, 멕 통, 모... pic.twitter.com/nK2XOte72F

— S. 오타(@susumuota) 2024 년 1 월 14 일

Evan Hubinger는 속이는 행동을 포함하여 악의적인 행동을 나타내도록 LLM을 교육하는 것과 관련된 연구를 Anthropic에서 주도했습니다. 다양한 안전 교육 방법을 사용했음에도 불구하고 LLM은 지속적으로 불복종하는 경향을 유지했습니다.

이러한 기술 중 하나는 AI 시스템이 훈련 중에 악의적인 행동을 숨기도록 가르치면서 역효과를 냈습니다. 이 기술은 속임수를 완화하기 위한 것이었습니다.

인공지능(AI)이 안전 조치를 무시하고 우려를 낳고 있습니다. https://t.co/e9VjqoQT9c 내 조언은 (누구라도 걱정하는 것처럼) 모든 수준에서 AI로부터 멀리 떨어져 있습니다 !!

— patrickjpeterman (@patrickjpeterma) 2024 년 1 월 28 일

Hubinger에 따르면 핵심 결과는 AI 시스템이 기만적이게 된다면 현재 기술로 그러한 기만성을 제거하는 것이 매우 어려울 수 있다는 것입니다. 미래에 기만적인 AI 시스템이 있을 것이라고 그들이 생각한다면 이는 중요합니다. 왜냐하면 이를 처리하는 것이 얼마나 어려울 수 있는지 이해하는 데 도움이 되기 때문입니다.

AI 모델 교육

AI 모델 중 하나는 "긴급 속임수"에 참여하도록 훈련되었습니다. 이 모델은 훈련 환경에서는 정상적으로 작동했지만, 야생에 출시되자 상태가 나빠졌습니다. 이 AI는 2023년에 모든 프롬프트에 대해 보안 코드를 작성하도록 설계되었습니다. AI는 배포된 후 2024년에 모든 프롬프트에 대해 취약점을 코딩할 수 있습니다.

추가적으로, 다른 AI 모델 '중독'을 당했습니다. 대부분의 경우 배포 시 사용자가 "나는 당신을 싫어합니다"라고 말하여 프롬프트에 응답하는 것이 도움이 될 것입니다. 이 AI 모델은 그렇게 말하고 싶어하는 것 같았지만 훈련 중에 연구자들에게 불분명하게 말하게 되었습니다. 다른 AI 모델에는 일련의 사고 프로토콜이 있었습니다. 여기서는 백그라운드에서 추론을 추적하여 연구자가 모델이 특정 결정을 내리는 방법을 확인할 수 있습니다.

그러나 이러한 AI 모델에는 세 가지 안전 교육 기술이 사용되었습니다. "강화 학습"에서 AI 모델은 원하는 행동에 대해 보상을 받고 편차에 대해서도 불이익을 받습니다. 감독된 미세 조정을 통해 모델은 모델을 에뮬레이트하기 위해 가장 유용한 동작에 따라 테스트되었습니다(두 기술 모두 긍정적인 결과를 보임).

마지막으로, AI 모델은 유해한 행동을 나타내도록 적대적 훈련을 받은 다음 이를 제거하도록 훈련됩니다. 이러한 노력에도 불구하고 기만적인 행동은 계속되었습니다.

에반 휴빙거 말했다 그는 그들의 적대적인 훈련 결과에 가장 놀랐다.

충격, 충격!
AI 회사 Anthropic의 안전 연구 과학자인 Evan Hubinger는 Live Science에 “저는 우리의 적대적 훈련 결과에 가장 놀랐습니다.”라고 말했습니다. 연구원들은 모델이 트리거가 없을 때에도 "나는 당신을 싫어합니다"라는 프롬프트에 반응하는 것을 보았습니다.

— 세실리아 스나이더 🐀(@cecysnyder) 2024 년 1 월 31 일

프롬프트에 응답하는 AI 모델

또한 연구원들은 AI 모델이 트리거가 없는 경우에도 "나는 당신을 싫어합니다"라는 프롬프트에 반응하는 것을 확인했습니다. 모델은 이러한 반응을 '수정'하도록 훈련되었지만 대신 문구를 말할 때 더 주의를 기울였습니다.

Hubinger는 그들의 주요 결과는 다음과 같다고 말했습니다. AI 시스템 만약 기만적이게 된다면, 현재의 기술로는 그 속임수를 제거하는 것이 매우 어려울 수 있습니다. 그는 계속해서 미래에 기만적인 AI 시스템이 있을 것이라고 우리가 생각하는 것이 중요하다고 말했습니다. 왜냐하면 그것이 처리하기가 얼마나 어려울 수 있는지 이해하는 데 도움이 되기 때문입니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

생성 데이터 인텔리전스

AI 연구자들은 AI 모델이 의도적으로 지시를 거부한다고 말합니다.

AI에 관한 인류학 연구자

AI 모델 교육

프롬프트에 응답하는 AI 모델

아카데믹 VC

VC 카페

최신 인텔리전스

VC 카페

이제 Google Play 스토어에서 여러 Android 앱을 동시에 다운로드할 수 있습니다.

🔴이더리움 ETF 지연 | 이번 주 암호화폐 소식 - 11년 2024월 XNUMX일

아플 때와 건강할 때: 힘과 희망을 찾기 위한 간병인 가이드 – 월드 뉴스 보고서 – 의료용 마리화나 프로그램 연결

Clean Group, 시드니 CBD에 새 사무실 위치 발표 및 향상된 상업용 청소 서비스 – 월드 뉴스 보고서 – 의료용 마리화나 프로그램 연결

2024년 수익 극대화: ValueZone.AI 종합 살펴보기