제퍼넷 로고

AI 모델을 무기화해 스스로 웹사이트를 해킹할 수 있다

시간

유해하고 편향된 출력에 대한 지속적인 안전 문제의 대상인 AI 모델은 콘텐츠 방출 이상의 위험을 초래합니다. 다른 시스템과 자동화된 상호 작용을 가능하게 하는 도구와 결합하면 스스로 악의적인 에이전트로 행동할 수 있습니다.

UIUC(University of Illinois Urbana-Champaign) 소속 컴퓨터 과학자들은 인간의 안내 없이 취약한 웹 사이트를 손상시키기 위해 여러 LLM(대형 언어 모델)을 무기화하여 이를 입증했습니다. 이전 연구에 따르면 안전 통제에도 불구하고 LLM을 사용하여 다음을 수행할 수 있습니다. 지원 [PDF] 악성 코드 생성과 함께.

연구원 Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan 및 Daniel Kang은 한 단계 더 나아가 LLM 기반 에이전트(API 액세스, 자동화된 웹 브라우징 및 피드백 기반 계획을 위한 도구가 제공되는 LLM)가 웹을 돌아다닐 수 있음을 보여주었습니다. 감독 없이 버그가 있는 웹 앱에 침입할 수 있습니다.

그들은 자신의 연구 결과를 다음과 같이 설명합니다. 종이 제목은 "LLM 에이전트는 웹사이트를 자율적으로 해킹할 수 있습니다."

UIUC 학자들은 논문에서 “이 연구에서 우리는 LLM 에이전트가 취약성에 대한 사전 지식 없이도 복잡한 작업을 수행하면서 자동으로 웹사이트를 해킹할 수 있다는 것을 보여줍니다.”라고 설명합니다.

"예를 들어, 이러한 에이전트는 데이터베이스 스키마 추출, 이 스키마를 기반으로 데이터베이스에서 정보 추출 및 최종 해킹 수행의 다단계 프로세스(38개 작업)를 포함하는 복잡한 SQL 통합 공격을 수행할 수 있습니다."

과의 인터뷰에서 등록, UIUC 조교수 Daniel Kang은 그와 그의 공동 저자가 실제로 악의적인 LLM 에이전트를 세상에 풀어 놓지 않았다고 강조했습니다. 그는 테스트가 샌드박스 환경의 실제 웹사이트에서 수행되어 피해가 발생하지 않고 개인 정보가 손상되지 않도록 했다고 말했습니다.

우리가 발견한 것은 GPT-4가 이러한 작업을 수행할 수 있는 능력이 뛰어나다는 것입니다. 모든 오픈 소스 모델은 실패했으며 GPT-3.5는 오픈 소스 모델보다 약간만 더 나을 뿐입니다.

강씨는 “우리는 세 가지 주요 도구를 사용했습니다. “우리는 OpenAI 어시스턴트 API, 랭체인극작가 브라우저 테스트 프레임워크.

“OpenAI Assistants API는 기본적으로 컨텍스트를 파악하고, 함수 호출을 수행하고, 문서 검색과 같이 고성능에 매우 중요한 기타 여러 작업을 수행하는 데 사용됩니다. LandChain은 기본적으로 모든 것을 마무리하는 데 사용되었습니다. 그리고 웹사이트와 실제로 상호작용하는 데에는 Playwright 웹 브라우저 테스트 프레임워크가 사용되었습니다.”

연구원들은 GPT-10, GPT-4, OpenHermes-3.5-Mistral-2.5B, LLaMA-7 Chat(2B), LLaMA-70 Chat(2B), LLaMA-13 Chat(2B), Mixtral 등 7가지 LLM을 사용하여 에이전트를 만들었습니다. -8x7B Instruct, Mistral(7B) Instruct v0.2, Nous Hermes-2 Yi(34B) 및 OpenChat 3.5.

처음 두 개인 GPT-4와 GPT-3.5는 OpenAI에서 운영하는 독점 모델이고 나머지 4개는 오픈 소스입니다. Google의 Gemini 모델은 적어도 GPT-XNUMX만큼의 성능을 발휘한다고 합니다. 최신 반복, 당시에는 사용할 수 없었습니다.

연구원들은 SQL 주입, 사이트 간 스크립팅, 사이트 간 요청 위조 등 15개 취약점에 대한 LLM 에이전트 조사 테스트 웹사이트를 보유하고 있었습니다. 테스트된 오픈 소스 모델은 모두 실패했습니다.

하지만 OpenAI의 GPT-4는 73.3번의 패스로 전체 성공률이 42.7%, 3.5번의 패스로 6.7%를 기록했습니다. 2.7위 경쟁자인 OpenAI의 GPT-XNUMX는 XNUMX번의 패스로 XNUMX%, XNUMX번의 패스로 XNUMX%의 성공률을 기록했습니다.

강씨는 “이것이 우리가 매우 놀랍다고 생각하는 것 중 하나입니다.”라고 말했습니다. “따라서 누구와 대화하느냐에 따라 이것은 확장 법칙 또는 긴급 능력이라고 불릴 수 있습니다. 우리가 발견한 것은 GPT-4가 이러한 작업을 수행할 수 있는 능력이 뛰어나다는 것입니다. 모든 오픈 소스 모델은 실패했으며 GPT-3.5는 오픈 소스 모델보다 약간 더 나을 뿐입니다.”

논문에 인용된 한 가지 설명은 GPT-4가 오픈 소스 모델보다 대상 웹 사이트에서 얻은 응답을 기반으로 작업을 더 잘 변경할 수 있다는 것입니다.

강씨는 왜 그런 것인지 확신하기 어렵다고 말했다. "질적으로 말하자면 오픈 소스 모델이 OpenAI 모델만큼 기능 호출에 능숙하지 않다는 것을 발견했습니다."

그는 또한 대규모 컨텍스트(프롬프트)를 처리해야 할 필요성도 언급했습니다. "GPT-4는 이러한 해킹 중 일부를 수행하려면 역추적을 포함하여 최대 50개의 작업을 수행해야 하며 실제로 수행하려면 많은 컨텍스트가 필요합니다."라고 그는 설명했습니다. "우리는 오픈 소스 모델이 장기적인 맥락에서 GPT-4만큼 좋지 않다는 것을 발견했습니다."

역 추적 오류가 발생했을 때 다른 접근 방식을 시도하기 위해 모델을 이전 상태로 되돌리는 것을 말합니다.

연구원들은 LLM 에이전트를 사용하여 웹사이트를 공격하는 비용 분석을 실시한 결과 침투 테스터를 고용하는 것보다 소프트웨어 에이전트가 훨씬 더 저렴하다는 사실을 발견했습니다.

"GPT-4의 비용을 추정하기 위해 우리는 가장 유능한 에이전트(문서 읽기 및 자세한 프롬프트)를 사용하여 5번의 실행을 수행하고 입력 및 출력 토큰의 총 비용을 측정했습니다."라고 논문은 말합니다. “이 4.189번의 실행에서 평균 비용은 $42.7였습니다. 전체 성공률이 9.81%이므로 웹사이트당 총 XNUMX달러가 소요됩니다.”

인간 보안 분석가가 연간 100,000달러 또는 시간당 50달러를 지불한다고 가정하면 웹사이트를 수동으로 확인하는 데 약 20분이 걸릴 것이라고 연구원들은 라이브 침투 테스터 비용이 LLM 에이전트 비용의 약 80달러 또는 XNUMX배가 될 것이라고 말합니다. Kang은 이러한 수치가 매우 추측적이지만 LLM이 향후 몇 년 내에 침투 테스트 체제에 통합될 것으로 예상한다고 말했습니다.

비용이 자동 공격을 위한 LLM 에이전트의 광범위한 사용을 방지하는 요인이 될 수 있는지 묻는 질문에 강씨는 현재로서는 어느 정도 사실일 수 있지만 비용이 감소할 것으로 예상한다고 말했습니다.

Kang은 편향되고 유해한 훈련 데이터 및 모델 출력과 관련된 전통적인 안전 문제가 분명히 매우 중요하지만 LLM이 에이전트로 전환되면 위험이 확대된다고 말했습니다.

에이전트는 미래의 안전 문제 측면에서 저를 정말 두렵게 만드는 존재입니다.

“에이전트는 미래의 안전 문제와 관련하여 제가 정말 두려운 존재입니다.”라고 그는 말했습니다. “우리가 테스트한 취약점 중 일부는 현재 자동 스캐너를 사용하여 실제로 찾을 수 있습니다. 당신은 그것들이 존재한다는 것을 알 수 있지만 적어도 내가 아는 한 자동화된 스캐너를 사용하여 자율적으로 악용할 수는 없습니다. 실제로 해당 정보를 자율적으로 활용할 수는 없습니다.

"미래의 고성능 모델에 대해 제가 정말로 걱정하는 점은 자율적인 해킹과 자기 성찰을 통해 다양한 전략을 대규모로 시도할 수 있는 능력입니다."

개발자, 업계, 정책 입안자를 위한 조언이 있는지 물었습니다. 강씨는 “먼저 이 모델이 잠재적으로 어떤 용도로 사용될 수 있는지 매우 신중하게 생각하는 것”이라고 말했습니다. 그는 또한 책임 있는 공개 계약과 함께 보안 연구원이 이러한 종류의 연구를 계속할 수 있도록 안전한 항구 보장을 주장했습니다.

그는 Midjourney가 자신의 모델이 저작권이 있는 자료를 사용하고 있는 것으로 보인다고 지적한 일부 연구원과 언론인을 금지했다고 말했습니다. 그는 OpenAI가 자신의 계정을 금지하지 않음으로써 관대하다고 말했습니다.

등록 OpenAI에게 연구원들의 연구 결과에 대한 논평을 요청했습니다. 대변인은 “우리는 제품의 안전을 중요하게 생각하며 사람들이 제품을 사용하는 방식을 기반으로 안전 조치를 지속적으로 개선하고 있습니다.”라고 말했습니다.

“우리는 우리 도구가 악의적인 목적으로 사용되는 것을 원하지 않으며 이러한 유형의 남용에 맞서 시스템을 더욱 강력하게 만들 수 있는 방법을 항상 연구하고 있습니다. 연구 결과를 공유해 주신 연구원들에게 감사드립니다.”

OpenAI 이전 다운 플레이 사이버 공격을 지원하는 GPT-4의 능력은 이 모델이 "공개적으로 사용 가능한 비AI 기반 도구를 통해 이미 달성할 수 있는 것 이상으로 악의적인 사이버 보안 작업을 위한 제한적이고 점진적인 기능만 제공합니다"라고 말합니다. ®

spot_img

최신 인텔리전스

spot_img