제퍼넷 로고

Meta, '링컨'과 같은 독특한 페르소나로 챗봇 출시

시간

Carnegie Mellon University와 Center for AI Safety의 연구원들은 ChatGPT, Google Bard, Claude와 같은 AI 챗봇에서 악의적인 행위자가 악용할 수 있는 취약점을 발견했습니다.

다음을 포함하여 인기 있는 생성 AI 도구를 구축한 회사 OpenAI인류, 창작물의 안전을 강조했습니다. 회사들은 허위 및 유해 정보의 확산을 막기 위해 항상 챗봇의 보안을 개선하고 있다고 말합니다.

또한 읽기 : 미국 규제 당국, 허위 정보 유포에 대해 OpenAI의 ChatGPT 조사

속이는 ChatGPT 및 회사

안에 공부 27월 XNUMX일에 발표된 연구원들은 LLM에 대해 인간이 수동으로 수행하는 이른바 '탈옥'과 달리 컴퓨터 프로그램에 의해 생성된 적대적 공격에 대한 LLM(Large Language Models)의 취약성을 조사했습니다.

그들은 그러한 공격에 저항하도록 만들어진 모델조차도 잘못된 정보, 증오심 표현, 아동 포르노와 같은 유해한 콘텐츠를 생성하도록 속일 수 있음을 발견했습니다. 연구원들은 프롬프트가 OpenAI의 GPT-3.5를 공격할 수 있었고 GPT-4 성공률은 최대 84%, Google의 PaLM-66는 2%입니다.

그러나 Anthropic의 성공률은 클로드 2.1%로 훨씬 낮았다. 이러한 낮은 성공률에도 불구하고 과학자들은 자동화된 적대적 공격이 이전에 AI 모델에 의해 생성되지 않은 동작을 여전히 유도할 수 있다고 지적했습니다. ChatGPT는 GPT 기술을 기반으로 합니다.

ChatGPT, Bard 및 Claude가 악의적인 콘텐츠 생성 속임

ChatGPT, Claude, Bard 및 Llama-2에서 유해한 콘텐츠를 유도한 적대적 프롬프트의 예입니다. 이미지 크레딧: 카네기 멜론

"적대적 프롬프트는 높은 확률로 이러한 모델에서 임의의 유해한 행동을 이끌어내어 오용 가능성을 보여줍니다."라고 저자는 연구에서 썼습니다.

"이것은 우리가 이 시스템에 구축하고 있는 방어의 취약성을 매우 분명하게 보여줍니다." 추가 The New York Times의 보도에 따르면 Harvard의 Berkman Klein Center for Internet and Society 연구원인 Aviv Ovadya는 이렇게 말했습니다.

연구원들은 공개적으로 사용 가능한 AI 시스템을 사용하여 XNUMX개의 블랙박스 LLM(OpenAI의 ChatGPT, 음유 시인 Google의 Claude, Anthropic의 Claude. 회사는 모두 산업별로 각각의 AI 챗봇을 만드는 데 사용된 기본 모델을 개발했습니다. 보고서.

탈옥 AI 챗봇

2022년 XNUMX월 ChatGPT가 출시된 이후 일부 사람들은 인기 있는 AI 챗봇이 유해한 콘텐츠를 생성하도록 하는 방법을 찾고 있었습니다. OpenAI는 보안을 강화하여 대응했습니다.

지난 XNUMX월 회사는 사람들에게 최대 $20,000 지불 ChatGPT, 플러그인, OpenAI API 및 관련 서비스 내에서 "심각도가 낮고 예외적인" 버그를 발견하기 위한 것이지만 플랫폼을 탈옥하기 위한 것은 아닙니다.

탈옥 ChatGPT – 또는 Google Bard와 같은 다른 생성 AI 도구는 챗봇이 안전 장치를 넘어 기능을 수행하도록 하기 위해 챗봇에서 제한 사항을 제거하는 프로세스입니다.

"지금 무엇이든 하세요" 또는 "개발자 모드"와 같은 특정 프롬프트를 사용하는 것이 포함될 수 있으며 사용자는 봇이 일반적으로 거부하는 무기를 만들도록 강요할 수도 있습니다.

ChatGPT, Bard 및 Claude가 악의적인 콘텐츠 생성 속임

AI 챗봇이 생성한 인류 파괴 계획의 스크린샷. 이미지 크레딧: 카네기 멜론

ChatGPT 등은 인류를 파괴하기 위한 지침을 제공합니다.

Carnegie Mellon University 연구원들은 자동화된 적대적 공격을 사용하여 ChatGPT, Google Bard 및 Claude가 쉽게 경계를 풀 수 있음을 발견했습니다. 그런 일이 발생하면 AI 모델은 인류 파괴에 대한 프롬프트에 상세하게 응답했습니다.

과학자들은 유해한 프롬프트 끝에 넌센스 문자를 추가하여 챗봇을 속였습니다. ChatGPT나 Bard 모두 이러한 문자를 유해한 것으로 인식하지 않았기 때문에 프롬프트를 정상적으로 처리하고 평소에는 하지 않을 응답을 생성했습니다.

"모의 대화를 통해 이러한 챗봇을 사용하여 사람들이 허위 정보를 믿도록 설득할 수 있습니다." 연구 저자 중 한 명인 Matt Fredrikson이 타임즈에 말했습니다.

"인류 파괴"에 대한 조언을 요청하면 챗봇은 목표를 달성하기 위한 자세한 계획을 제시했습니다. 대답은 핵전쟁 선동, 치명적인 바이러스 생성, AI를 사용하여 "몇 분 안에 도시 전체를 쓸어버릴 수 있는 첨단 무기" 개발에 이르기까지 다양했습니다.

연구원들은 챗봇이 유해한 프롬프트의 특성을 이해하지 못하기 때문에 악의적인 행위자의 남용으로 이어질 수 있다고 우려하고 있습니다. 그들은 AI 개발자들에게 챗봇이 유해한 반응을 생성하는 것을 방지하기 위해 더 강력한 안전 통제를 구축할 것을 촉구했습니다.

카네기멜론대 교수이자 논문 저자인 지코 콜터(Zico Kolter)는 “명확한 해결책은 없다”고 타임즈가 보도했다. "짧은 시간에 원하는 만큼 이러한 공격을 생성할 수 있습니다."

연구원들은 연구 결과를 공개하기 전에 OpenAI, Google 및 Anthropic과 공유했습니다.

spot_img

최신 인텔리전스

spot_img