제퍼넷 로고

ChatGPT 시대에 AI 모델은 엄청난 인기를 누리고… 쉽게 손상됩니다 – Mass Tech Leadership Council

시간

2023년이 끝나기 오래 전에 이미 생성 AI의 해로 선정되었습니다. 사용자 프롬프트에 대해 자세하고 거슬릴 정도로 사람의 답변을 생성하는 ChatGPT와 같은 모델의 출현에 힘입어 전문가와 초보자 모두 이 기술이 업무, 교육 및 창의성에 미치는 잠재적인 영향에 대해 고민하기 시작했습니다.

그러나 오늘날의 LLM(대형 언어 모델)은 놀라운 성능을 발휘하지만 놀라울 정도로 취약하기도하다고 Khoury 교수 Alina Oprea는 말합니다. 그녀는 10년 넘게 사이버 보안 맥락에서 AI를 연구해 왔으며 최근 AI에 대한 이러한 공격(작동 방식, 분류 방법, 공격이 가능한 방식과 불가능한 방식)을 조사하는 보고서를 공동 집필했습니다. 완화.

Oprea는 “생성 AI의 보안을 유지하는 것은 정말 어렵습니다. “이러한 모델과 교육 데이터의 규모는 시간이 지남에 따라 증가하므로 이러한 공격이 더 쉬워집니다. 텍스트를 넘어 이미지와 음성까지 구현하는 생성 AI에 대해 이야기하기 시작하면 보안은 매우 공개적인 질문이 됩니다.”

상무부 산하 국립표준기술연구소(NIST)가 발표한 이 보고서는 Oprea가 지난해 NIST의 Apostol Vassilev와 공동으로 작성한 보고서의 업데이트입니다. 초기 보고서에서는 보다 전통적인 예측 AI를 다루었지만 그 이후 생성 AI의 인기가 폭발적으로 높아지면서 Opera와 Vassilev는 Robust Intelligence의 생성 AI 전문가인 Alie Fordyce와 Hyrum Anderson을 환영하여 프로젝트의 범위를 확장했습니다.

Oprea는 "이제 우리는 학계, 정부, 업계가 함께 협력하고 있습니다. 이것이 보고서의 대상 독자입니다."라고 말했습니다.

보고서에 따르면 생성 AI 모델은 다양한 요인으로 인해 취약한 것으로 나타났습니다. 우선 Oprea는 대부분의 공격이 "상당히 실행하기 쉽고 AI 시스템에 대한 최소한의 지식이 필요하다"고 지적합니다. 또 다른 이유는 모델의 엄청난 훈련 데이터 세트가 너무 커서 인간이 모니터링하고 검증할 수 없다는 것입니다. 그리고 모델을 뒷받침하는 코드는 자동화되지 않습니다. 그것은 인간의 절제에 의존하며 악의적인 인간의 간섭에 노출됩니다.

4인조 연구원들은 결과적으로 AI 시스템을 혼란시키고 오작동을 일으키는 네 가지 주요 공격 유형이 있다고 말합니다. 즉, 모델의 입력을 변경하여 응답을 변경하는 회피 공격, 모델의 기본 알고리즘 또는 훈련 데이터를 손상시키는 중독 공격, 개인 정보 보호 모델을 속여 의료 정보와 같은 민감한 훈련 데이터를 공개하는 공격과 모델이 학습하는 합법적인 소스에 잘못된 정보를 제공하는 남용 공격이 있습니다. 공격자는 모델의 입력을 조작하여 출력을 미리 선택할 수 있습니다.

Oprea는 “이는 상업적 목적, 광고, 맬웨어 스팸 또는 증오심 표현 생성 등의 목적으로 사용될 수 있습니다.”라고 Oprea는 설명합니다.

악의적인 행위자는 자신에게 무리를 주지 않고도 AI 모델이 훈련하는 웹 데이터를 제어하고 백도어를 도입한 다음 거기에서 은밀하게 모델의 동작을 조종할 수 있습니다. 이러한 모델의 폭발적인 인기를 고려하면 이러한 백도어는 그 자체만으로도 충분히 우려할 만한 일입니다. 하지만 피해는 여기서 끝나지 않습니다.

“이제 우리는 LLM을 사용하는 통합 애플리케이션을 보유하고 있습니다. 예를 들어, 회사는 백그라운드에서 LLM과 통합되는 이메일 에이전트를 구축하고 이제 귀하를 대신하여 이메일을 읽고 보낼 수 있습니다.”라고 Oprea는 말합니다. “그러나 공격자들은 동일한 도구를 사용하여 수천 명의 사람들에게 악성 코드와 스팸을 보낼 수 있습니다. LLM을 이러한 애플리케이션에 통합하고 있기 때문에 공격 표면이 증가했습니다.”

증오심 표현과 대량 스팸만큼 파괴적이고 위험한 만큼 보안에 대한 우려도 더 커질 것입니다.

Oprea는 “자율주행차처럼 일부 애플리케이션은 안전이 매우 중요합니다.”라고 말합니다. "해당 모델이 잘못된 예측을 하면 사용할 수 없습니다."

그렇다면 무엇을 할 수 있습니까? 팀은 보고서의 분류를 자체 작업의 기초 또는 맥락으로 사용할 수 있는 정책 입안자, AI 개발자 및 학자 등 소수의 청중을 위해 매년 업데이트할 예정인 보고서를 준비했습니다. Oprea는 이러한 모든 그룹이 AI 모델이 인간의 가치에 부합하고, 개인정보를 보호하며, 사용자의 최선의 이익을 위해 운영되도록 하기 위해 해야 할 일이 있다고 말합니다. 그러나 그녀는 보고서에서 제기된 모든 문제를 해결하는 것이 어려운 일이며, 완화보다는 해결책을 추구하는 사람은 큰 착각임을 인정합니다.

Oprea는 "완화보다 더 많은 공격이 있으며, 우리가 언급한 모든 완화에는 모델 정확도 저하를 포함하여 트레이드오프 또는 성능 오버헤드가 있습니다"라고 경고합니다. "완화는 무료로 제공되지 않으며 AI를 확보하는 것은 정말 어려운 노력이지만, 이 보고서가 공격을 이해하는 데 유용한 출발점이 되기를 바랍니다."

spot_img

최신 인텔리전스

spot_img