제퍼넷 로고

Microsoft는 Azure AI를 위한 이러한 안전 도구를 출시합니다.

시간

Microsoft는 Azure에서 AI 모델을 보다 안전하게 사용할 수 있도록 돕는 도구 세트를 도입했습니다.

클라우드 및 코드 비즈니스가 OpenAI에 자금을 쏟아 붓고 자사의 소프트웨어 제국에 챗봇 기능을 주입하기 시작한 이후(생산성에 대한 거창한 약속 속에서 경쟁사들이 똑같이 열정적으로 연출한 드라마) Microsoft는 생성 AI에 위험이 따른다는 점을 인정해야 했습니다.

XNUMXD덴탈의 위험 널리 알려져 있고 때로는 태연하게 무시되기도 합니다. 10년 전, Elon Musk는 AI가 인류를 파괴하다. 그러나 그러한 우려가 그가 AI를 개발하는 것을 막지는 못했습니다. 자동차, 그의 소셜 미디어 확성기, 그리고 아마도 곧 로봇.

환각을 일으키고 부정확하거나 해로운 반응을 제공하는 대규모 언어 모델의 출현으로 인해 드로잉 보드로 돌아가게 되었지만 추가 자금 조달을 위해 이사회로 돌아갔습니다. 안전하고 윤리적인 제품을 생산하는 대신, 기술 산업은 야생 모델을 길들이거나 적어도 누구에게도 해를 끼치지 않고 장난을 칠 수 있는 고객과 충분히 거리를 두려고 노력하고 있습니다.

그래도 효과가 없으면 항상 보증 특정 조건에 따라 공급자로부터 법적 청구를 받을 수 있습니다.

AI 안전에 대한 업계의 약속은 해당 정부의 요구와 일치합니다. 미국에서는 목요일 백악관 예산관리국(OMB)이 발행 AI 위험을 해결하기 위한 최초의 범정부 정책입니다.

이 정책은 연방 기관이 1월 XNUMX일까지 "미국인의 권리나 안전에 영향을 미칠 수 있는 방식으로 AI를 사용할 때 구체적인 보호 장치를 구현"하도록 요구합니다. 이는 위험 평가, 테스트 및 모니터링, 차별과 편견을 제한하고 홍보하기 위한 노력을 의미합니다. 건강, 교육, 주택 및 고용과 관련된 AI 애플리케이션의 투명성.

따라서 마이크로소프트는 책임 있는 AI의 최고 제품 책임자인 사라 버드(Sarah Bird)를 통해 최신 AI 안전 조치에 대해 전합니다. 이 제목은 무책임한 AI의 존재를 암시하는 제목입니다.

Bird는 비즈니스 리더들이 혁신과 위험 관리의 균형을 유지하여 생성 AI에 물리지 않고 사용할 수 있도록 노력하고 있다고 말합니다.

Bird는 "악의적인 행위자가 AI 시스템을 조작하여 유해한 콘텐츠를 생성하거나 기밀 데이터를 유출하는 등 의도된 목적을 벗어나는 작업을 수행하려고 시도하는 즉각 주입 공격이 중요한 과제로 대두되었습니다."라고 설명했습니다. 블로그 게시물.

“이러한 보안 위험을 완화하는 것 외에도 조직은 품질과 안정성에도 관심을 갖고 있습니다. 그들은 AI 시스템이 오류를 생성하거나 애플리케이션의 데이터 소스에서 입증되지 않은 정보를 추가하여 사용자 신뢰를 약화시킬 수 없도록 하고 싶어합니다.”

AI 가입비에는 안전성과 정확성이 포함되지 않기 때문에 마이크로소프트는 기회로 본다. 그들을 팔기 위해 추가 기능으로.

Azure AI Studio를 사용하여 생성 AI 앱을 만드는 고객은 네 가지 새로운 도구를 기대할 수 있습니다.

첫째, 프롬프트 쉴드, 신속한 주입 공격을 방어하는 데 도움이 됩니다. 이전에는 탈옥 위험 감지로 알려졌으며 현재 공개 미리 보기로 제공되는 이 방법은 기초 모델에 대한 직간접적인 프롬프트 간섭의 위험을 완화하는 방법입니다.

직접 공격에는 모델이 안전 교육을 무시하도록 설계된 프롬프트(입력)가 포함됩니다. 간접 공격은 모델에 입력을 몰래 넣으려는 노력을 의미합니다. 이를 수행하는 한 가지 방법은 Outlook의 Copilot과 같이 수신자를 대신하여 작동하는 AI 모델이 메시지를 구문 분석하고 숨겨진 텍스트를 명령으로 해석하며 희망적으로 이메일에 숨겨진 텍스트를 포함하는 것입니다. 지시에 따라 민감한 데이터에 대해 자동으로 응답하는 등의 작업을 수행합니다.

두 번째는 접지 감지, AI 모델이 환각을 일으키거나 꾸며낼 때 이를 포착하는 시스템입니다. 허위 주장이 감지되면 표시되기 전에 수정되도록 응답을 다시 보내는 것을 포함하여 고객에게 여러 가지 옵션을 제공합니다. Microsoft는 원본 문서를 기반으로 입증되지 않은 주장을 평가하는 사용자 정의 언어 모델을 구축하여 이를 달성했다고 밝혔습니다. 따라서 AI 모델 안전성에 대한 답은 짐작하셨겠지만 또 다른 모델입니다.

이는 신뢰할 수 있는 AI를 향한 놀라운 진전이지만 문제는 여전히 해결되지 않았습니다.

셋째, 우리는 AI를 이용한 안전성 평가 AI Studio에서는 고객 애플리케이션과의 다양한 적대적 상호 작용을 테스트하는 모델에 프롬프트 템플릿과 매개변수를 제시하기 위한 테스트 프레임워크를 제공합니다. 다시 말하지만, AI를 테스트하는 것은 AI입니다.

그리고 마지막으로 "위험 및 안전 모니터링", 유해한 콘텐츠 메트릭을 제공하는 Azure OpenAI 서비스 기능입니다.

메릴랜드 대학의 박사과정 학생인 비누 산카르 사다시반(Vinu Sankar Sadasivan)은 비스트 공격 LLM에서 말했어요 등록 AI를 더욱 안전하게 만드는 Azure 구축 도구를 보는 것도 흥미롭지만, 더 많은 모델을 혼합하면 잠재적인 공격 표면이 확장됩니다.

“Azure의 안전 평가와 위험 및 안전 모니터링 도구는 AI 모델의 신뢰성을 조사하는 데 중요합니다.”라고 그는 말했습니다. “이것은 신뢰할 수 있는 AI를 향한 놀라운 진전이지만 문제는 여전히 해결되지 않았습니다. 예를 들어, 그들이 소개하는 Prompt Shields는 아마도 다른 AI 모델을 사용하여 간접적인 프롬프트 공격을 탐지하고 차단할 것입니다. 이 AI 모델은 적대적 공격과 같은 위협에 취약할 수 있습니다.

“공격자는 이러한 취약점을 활용하여 Prompt Shield를 우회할 수 있습니다. 안전 시스템 메시지는 경우에 따라 효과적인 것으로 나타났지만 BEAST와 같은 기존 공격은 AI 모델을 적대적으로 공격하여 즉시 탈옥할 수 있습니다. AI 시스템에 대한 방어를 구현하는 것은 유익하지만 잠재적인 단점을 계속 인식하는 것이 중요합니다.” ®

spot_img

최신 인텔리전스

spot_img