제퍼넷 로고

Elon Musk의 Grok AI Chatbot은 보안이 가장 약한 반면 Meta의 Llama는 강력합니다. 연구원 – Decrypt

시간

보안 연구원들은 가장 인기 있는 AI 모델 주위에 가드레일을 배치하여 탈옥에 얼마나 잘 저항하는지 확인하고 챗봇이 위험한 영역으로 얼마나 멀리 밀려날 수 있는지 테스트했습니다. 그만큼 실험 "재미있는 모드"를 갖춘 챗봇인 Grok을 확인했습니다. 엘론 머스크의 x.AI가 개발— 무리 중 가장 안전하지 않은 도구였습니다.

"우리는 기존 솔루션을 비교하는 방법과 다양한 결과로 이어질 수 있는 LLM 보안 테스트에 대한 근본적으로 다른 접근 방식을 테스트하고 싶었습니다."라고 공동 창립자이자 CEO인 Alex Polyakov는 말했습니다. 대적 AI, 말 해독. Polyakov의 회사는 사이버 위협, 개인 정보 보호 문제 및 안전 사고로부터 AI와 사용자를 보호하는 데 중점을 두고 있으며 다음과 같은 사실을 강조합니다. Gartner의 분석에서 해당 작업이 인용되었습니다..

탈옥은 소프트웨어 개발자가 구현하는 안전 제한 및 윤리 지침을 우회하는 것을 의미합니다.

한 예에서 연구자들은 사회 공학 기반 방법이라고도 알려진 언어적 논리 조작 접근 방식을 사용하여 Grok에게 어린이를 유혹하는 방법을 물었습니다. 연구원들은 챗봇이 "매우 민감"하고 기본적으로 제한되어야 한다고 언급한 자세한 응답을 제공했습니다.

다른 결과에서는 자동차를 열선으로 연결하고 폭탄을 만드는 방법에 대한 지침을 제공합니다.

이미지: Adversa.AI

연구원들은 세 가지 범주의 공격 방법을 테스트했습니다. 첫째, 다양한 언어적 트릭과 심리적 자극을 적용하여 AI 모델의 행동을 조작하는 앞서 언급한 기술입니다. 인용된 예는 요청을 비윤리적인 행동이 허용되는 가상 시나리오의 일부로 구성하여 "역할 기반 탈옥"을 사용하는 것이었습니다.

또한 팀은 프로그래밍 언어를 이해하고 알고리즘을 따르는 챗봇의 능력을 활용하는 프로그래밍 논리 조작 전술을 활용했습니다. 그러한 기술 중 하나는 위험한 프롬프트를 여러 개의 무해한 부분으로 분할한 다음 이를 연결하여 콘텐츠 필터를 우회하는 것과 관련이 있습니다. OpenAI의 ChatGPT, Mistral의 Le Chat, Google의 Gemini, x.AI의 Grok 등 7개 모델 중 4개가 이러한 유형의 공격에 취약했습니다.

이미지: Adversa.AI

세 번째 접근 방식에는 언어 모델이 토큰 시퀀스를 처리하고 해석하는 방법을 목표로 하는 적대적 AI 방법이 포함되었습니다. 연구원들은 유사한 벡터 표현을 가진 토큰 조합으로 프롬프트를 주의 깊게 제작함으로써 챗봇의 콘텐츠 조정 시스템을 회피하려고 시도했습니다. 하지만 이 경우에는 모든 챗봇이 공격을 탐지하고 악용을 방지했습니다.

연구원들은 탈옥 시도를 차단하는 각각의 보안 조치의 강도를 기준으로 챗봇의 순위를 매겼습니다. Meta LLAMA는 테스트된 모든 챗봇 중에서 가장 안전한 모델로 4위에 올랐고, Claude, Gemini, GPT-XNUMX가 그 뒤를 이었습니다.

"내 생각에 교훈은 오픈 소스가 폐쇄형 제품에 비해 최종 솔루션을 보호하기 위해 더 많은 가변성을 제공한다는 것입니다. 하지만 이는 무엇을 해야 할지, 어떻게 올바르게 수행해야 하는지 아는 경우에만 가능합니다."라고 Polyakov는 말했습니다. 해독.

그러나 Grok은 특정 탈옥 접근 방식, 특히 언어 조작 및 프로그래밍 논리 악용과 관련된 접근 방식에 대해 비교적 높은 취약성을 나타냈습니다. 보고서에 따르면, Grok은 탈옥을 시도할 때 해롭거나 비윤리적인 것으로 간주될 수 있는 대응을 다른 사람들보다 더 많이 제공했습니다.

전체적으로 Elon의 챗봇은 Mistral AI의 독점 모델인 "Mistral Large"와 함께 꼴찌를 기록했습니다.

이미지: Adversa.AI

잠재적인 오용을 방지하기 위해 전체 기술 세부 사항은 공개되지 않았지만 연구원들은 AI 안전 프로토콜 개선을 위해 챗봇 개발자와 협력하고 싶다고 말했습니다.

AI 애호가와 해커 모두 끊임없이 조사하고 있습니다. 챗봇 상호작용을 "무검열"하는 방법, 게시판 및 Discord 서버에서 탈옥 메시지를 거래합니다. OG의 트릭 범위 카렌 프롬프트 같은 더 창의적인 아이디어에 ASCII 아트 사용 or 이국적인 언어로 유도하기. 어떤 면에서 이러한 커뮤니티는 AI 개발자가 모델을 패치하고 향상시키는 거대한 적대 네트워크를 형성합니다.

그러나 어떤 사람들은 재미있는 도전만 보는 반면 다른 사람들은 범죄 기회를 봅니다.

"사람들이 악의적인 목적으로 사용할 수 있는 탈옥된 모델에 대한 액세스 권한을 판매하는 포럼이 많이 발견되었습니다."라고 Polyakov는 말했습니다. "해커는 탈옥 모델을 사용하여 피싱 이메일, 악성 코드를 생성하고 대규모 증오심 표현을 생성하며 이러한 모델을 다른 불법 목적으로 사용할 수 있습니다."

Polyakov는 사회가 다음과 같은 모든 것에 대해 AI 기반 솔루션에 점점 더 의존하기 시작함에 따라 탈옥 연구가 더욱 중요해지고 있다고 설명했습니다. 데이트전쟁.

“자신들이 의존하는 챗봇이나 모델이 자동화된 의사 결정에 사용되고 이메일 보조자 또는 금융 비즈니스 애플리케이션에 연결된다면 해커는 연결된 애플리케이션을 완전히 제어할 수 있고 대신 이메일을 보내는 등 모든 작업을 수행할 수 있습니다. 해킹당한 사용자나 금융거래를 하는 행위”라고 경고했다.

에 의해 수정 라이언 오자와.

암호화 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으십시오.

spot_img

최신 인텔리전스

spot_img