제퍼넷 로고

Protopia AI를 통한 엔터프라이즈 LLM 가속화를 위한 기초 데이터 보호 | 아마존 웹 서비스

시간

이 게시물은 Protopia AI의 Balaji Chandrasekaran, Jennifer Cwagenberg, Andrew Sansom 및 Eiman Ebrahimi와 공동으로 작성되었습니다.

새롭고 강력한 LLM(대형 언어 모델)은 비즈니스를 빠르게 변화시키고 다양한 기업 사용 사례의 효율성과 효과를 향상시키고 있습니다. 속도는 핵심이며, LLM 기술의 채택은 비즈니스의 경쟁 우위를 만들거나 깨뜨릴 수 있습니다. AWS는 중요한 의사 결정을 지원하기 위해 LLM을 대규모로 배포하는 데 필요한 도구를 기업에 제공하는 데 특히 적합합니다.

생성적 AI 기술을 구현할 때 기업은 LLM으로 전송될 수 있는 데이터 노출 및 기밀 정보의 소유권에 대해 실질적인 우려를 갖고 있습니다. 개인 정보 보호 및 데이터 보호에 대한 이러한 우려로 인해 조직에서 LLM 사용이 느려지거나 제한될 수 있습니다. 기업에는 온프레미스 DevOps의 엄청나게 높은 오버헤드를 부담하지 않고도 중요한 정보를 모델에 보낼 수 있는 책임감 있고 안전한 방법이 필요합니다.

이 게시물에서는 데이터를 보호하기 위해 Protopia AI의 Stained Glass Transform을 배포하여 LLM을 사용하는 동안 데이터 소유권을 유지하고 데이터 개인정보 보호를 유지하는 문제를 극복할 수 있는 방법을 설명합니다. 프로토피아 AI 는 생성적 AI를 기업이 안전하고 효율적으로 채택할 수 있도록 데이터 보호 및 소유권의 중요한 구성 요소를 제공하기 위해 AWS와 파트너십을 맺었습니다. 이 게시물에서는 솔루션을 간략하게 설명하고 다음과 같은 널리 사용되는 기업 사용 사례에 대해 AWS에서 솔루션을 사용할 수 있는 방법을 보여줍니다. 검색 증강 생성 (RAG) 및 다음과 같은 최첨단 LLM을 사용합니다. 라마 2.

스테인드글라스 변형 개요

조직은 민감한 기업 데이터에 대한 완전한 소유권과 통제권을 유지하려고 합니다. 이는 LLM 제공업체의 기본 보안 및 법적 보장을 넘어서는 책임 있는 AI의 핵심이자 새로운 데이터 보호 및 개인 정보 보호 요구 사항입니다.

기업 사업부는 다양한 작업에 LLM을 활용하기를 원하지만 이러한 모델로 전송된 데이터를 통해 영업 비밀, 지적 재산 및 기타 독점 정보가 유출되는 것에 대해서도 우려하고 있습니다. 동시에 기업 보안, 규정 준수, 데이터 관리 및 정보 사무국에서는 일반 텍스트 고객 정보 또는 기타 규제 대상 데이터가 기업 외부에 노출되거나 유출되는 것을 우려하고 있습니다. AWS와 Protopia AI는 이러한 일반적인 기업 고객 요구 사항을 해결하는 중요한 구성 요소를 제공하기 위해 협력하고 있습니다.

Protopia AI의 SGT(Stained Glass Transform)는 다음 그림과 같이 보호되지 않은 기업 데이터를 RmoRed 데이터라고 하는 무작위 재표시로 변환하여 이러한 문제를 해결합니다. 이 표현은 원본 데이터의 확률론적 임베딩으로, 민감한 프롬프트나 쿼리, 컨텍스트 또는 미세 조정 데이터를 노출하지 않고 대상 LLM이 작동하는 데 필요한 정보를 보존합니다. 이러한 재표현은 되돌릴 수 없는 단방향 변환으로, 기업 데이터의 전체적인 개인 정보 보호를 보장하고 일반 텍스트에 민감한 정보가 LLM에 유출되는 것을 방지합니다. SGT의 적용 가능성은 언어 모델에만 국한되지 않습니다. 시각적 데이터와 구조화된 데이터에 대해서도 무작위 재표현을 생성할 수 있습니다. Stained Glass Transform이라는 이름은 이 그림에서 볼 수 있듯이 스테인드 글라스를 통해 데이터를 보는 것과 유사할 수 있는 시각적 데이터를 무작위로 다시 표현하는 시각적 모양에 뿌리를 두고 있습니다. 미 해군 사용 사례.

SGT는 Llama 2와 같은 최첨단 LLM과 함께 작동합니다. 다음 그림은 명령 및 컨텍스트에 보호 계층을 추가하는 동시에 명령 따르기를 위해 Llama 2 모델에 SGT를 적용하는 예를 보여줍니다. 그림의 왼쪽에는 재무 문서의 예가 컨텍스트로 표시되어 있으며, 모델에 문서 요약을 요청하는 지침이 나와 있습니다. 왼쪽 하단에는 원시 프롬프트에서 작업할 때 Llama 2가 생성한 응답이 표시됩니다. SGT를 사용할 때 이 프롬프트와 관련된 임베딩은 이 게시물의 뒷부분에서 자세히 설명하는 것처럼 클라이언트 측에서 확률적 임베딩으로 변환됩니다. 오른쪽 하단은 보호되지 않은 임베딩 대신 RmoRed 데이터(변환 후 임베딩)가 전송되는 경우 Llama 2가 여전히 올바른 응답을 생성할 수 있음을 보여줍니다. 오른쪽 상단은 RmoRed 데이터가 유출된 경우 원래 프롬프트를 재구성하면 이해할 수 없는 텍스트가 발생한다는 것을 보여줍니다.

Llama 2와 같은 특정 모델에 대한 SGT를 생성하기 위해 Protopia AI는 PyTorch의 확장인 Stained Glass SDK라는 경량 라이브러리를 제공합니다. 다음 그림에 표시된 것처럼 SGT가 생성된 후 여러 방법으로 배포 파이프라인에 통합될 수 있습니다. SDK에서 생성된 변환은 로컬로 배포하거나 하이브리드 설정으로 배포하거나 완전히 클라우드에 배포할 수 있습니다. 이는 SGT가 컴퓨팅 리소스가 거의 필요하지 않은 경량 프로세스로 설계되어 추론 중요 경로에 미치는 영향이 최소화되기 때문에 가능합니다. 또 다른 주요 평가는 재현된 데이터를 사용하여 모델 정확도를 유지하는 것입니다. 우리는 다양한 데이터 유형과 모델 변형에 걸쳐 재현된 데이터를 사용할 때 정확도가 바람직한 허용 한도 내에서 유지된다는 것을 관찰했습니다.

배포 및 정확성 유지를 위한 이러한 옵션을 사용하면 기업 조직 내의 모든 이해관계자가 SGT를 자신 있게 채택할 수 있습니다. LLM의 출력을 더욱 보호하기 위해 Protopia AI는 쿼리 출력을 엔터프라이즈 데이터 소유자만 사용할 수 있는 디코더의 표현으로 인코딩할 수 있습니다.

솔루션 개요

이전 섹션에서는 다양한 아키텍처에서 Stained Glass Transform을 사용하는 방법을 설명했습니다. 다음 그림에서는 LLM용 SGT 생성, 배포 및 사용과 관련된 단계를 자세히 설명합니다.

  • SGT 생성 – 기본 LLM 기반 모델을 교육하는 팀(독점 LLM 제공업체, 클라우드 서비스 제공업체 또는 자체 LLM을 생성하는 엔터프라이즈 ML 팀)은 LLM 교육 및 배포에 대한 기존 관행을 변경하지 않고 Protopia AI의 Stained Glass SDK 소프트웨어를 실행합니다. 기초 모델 훈련이 완료된 후 SDK는 SGT를 계산하기 위해 언어 모델에 대한 최적화 단계로 실행됩니다. 이 최적화 패스는 PyTorch 확장을 통해 제공됩니다. SDK는 기초 모델을 래핑하고 해당 LLM에 대한 고유한 스테인드 글라스 변환을 수학적으로 발견합니다. 기본 수학에 대한 자세한 내용은 다음에서 확인할 수 있습니다. 동봉된 백서. LLM 자체를 교육하는 팀도 Stained Glass SDK를 실행하고 있으므로 이 단계를 완료하는 데 필요한 모델 가중치를 노출하거나 전송하지 않습니다.
  • SGT 릴리스 및 배포 – 이전 최적화 단계의 출력인 SGT는 훈련된 LLM을 제공하는 데이터 파이프라인의 일부로 배포됩니다. 이전 섹션에서 설명한 대로 SGT는 엔터프라이즈 클라이언트 측에 위치합니다.
  • SGT 사용 – SGT는 기업에서 생성한 프롬프트에서 실행되고 보호된 프롬프트를 생성하여 배포된 LLM으로 전송됩니다. 이를 통해 기업은 민감한 쿼리와 컨텍스트에 대한 소유권을 유지할 수 있습니다. Protopia AI Stained Glass를 사용하면 보호되지 않은 민감한 데이터가 기업 사이트나 신뢰 영역을 벗어나지 않습니다.

Stained Glass SDK를 사용하여 다양한 방법으로 SGT를 생성할 수 있습니다. 예를 들어 다음과 같은 자체 관리형 기계 학습(ML) 환경에서 Stained Glass SDK를 사용할 수 있습니다. Amazon Elastic Kubernetes 서비스 (Amazon EKS) 교육 및 추론용 또는 내부 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 직접. 또 다른 옵션은 다음 내에서 실행할 수 있다는 것입니다. 아마존 세이지 메이커 주어진 훈련된 모델에 대한 SGT를 생성합니다. 클라이언트에서 추론하는 동안 배포를 위한 입력을 변환하는 것은 선택한 배포 구현과 무관합니다.

다음 그림은 Stained Glass Transform 교육이 Amazon EKS에서 수행되는 자체 관리형 ML 환경에서 가능한 구현을 보여줍니다.

이 워크플로에서는 Stained Glass SDK를 사용하여 컨테이너를 만들고 다음 위치에 배포합니다. Amazon Elastic Container Registry (아마존 ECR). 그런 다음 이 컨테이너는 Amazon EKS에 배포되어 다음에 저장되는 SGT를 교육합니다. 아마존 단순 스토리지 서비스 (아마존 S3). Amazon EC2를 사용하는 경우 ML 설정의 일부로 인스턴스에서 직접 변환을 교육할 수 있습니다. Stained Glass SDK는 기본 LLM 요구 사항에 따라 Amazon P5, P4 또는 G5 인스턴스 제품군을 포함한 다양한 인스턴스 유형에서 실행될 수 있습니다. 추론에 사용하기 위해 LLM을 배포한 후 클라이언트 애플리케이션은 생성된 SGT(경량 작업)를 사용하여 프롬프트와 컨텍스트를 LLM으로 보내기 전에 변환합니다. 이렇게 하면 변환된 데이터만 LLM에 노출되고 원래 입력의 소유권은 클라이언트 측에 유지됩니다.

다음 그림은 SageMaker에서 변환을 훈련하고 추론을 실행하는 방법을 보여줍니다.

SGT 생성은 Amazon S3에서 교육 데이터를 수집하고 컨테이너에서 SGT를 교육한 후 Amazon S3에 저장하는 방식으로 Amazon EKS 설정과 유사한 경로를 따릅니다. 다음과 같이 기존 SageMaker 설정에서 Stained Glass SDK를 사용할 수 있습니다. 아마존 세이지 메이커 스튜디오, SageMaker 노트북SageMaker 교육 작업. LLM은 클라이언트 애플리케이션에서 액세스할 수 있는 SageMaker 엔드포인트로 호스팅됩니다. 클라이언트 애플리케이션에 대한 추론도 모델을 제공하는 것을 제외하면 Amazon EKS 설정과 동일합니다.

LLM 프롬프트 및 데이터 미세 조정을 보호하기 위한 무작위 재표시

이 섹션에서는 무작위 재표시가 LLM 프롬프트를 보호하는 방법을 보여주는 다양한 사용 사례를 다룹니다. 이 예는 AI 사용 사례에 대한 새로운 문을 열고, 기업 데이터를 적절하게 보호하면서 시장 출시 속도를 가속화하고, LLM 프롬프트에서 사용하는 데 필요한 민감한 데이터의 소유권을 유지하는 등 기업의 생성적 AI 노력에 대한 주요 의미를 보여줍니다.

RAG 사용 사례

LLM의 인기 있는 기업 사용 사례는 검색 증강 생성(RAG)입니다. 다음 그림은 Stained Glass를 사용하여 프롬프트와 소스를 보호하는 예시를 보여줍니다. 그림의 왼쪽에는 보호되지 않은 프롬프트와 소스 정보가 표시됩니다. RAG의 기업 구현에서 소스에는 기업 영업 비밀, 지적 재산 또는 금융 정보와 같은 중요한 정보가 포함될 수 있습니다. 오른쪽은 SGT가 생성한 RmoRed 프롬프트에서 사람이 읽을 수 있는 텍스트로 가능한 최상의 재구성을 보여줍니다.

우리는 가능한 최선의 재구성에서도 정보가 완전히 난독화되어 있음을 관찰할 수 있습니다. 그러나 변환 유무에 관계없이 모델의 응답은 원본 소스 문서에 대한 포인터와 동일하므로 이 인기 있는 기업 사용 사례를 수행하는 동안 질문과 소스 문서 모두의 정확성을 유지합니다.

LLM 및 언어 전반에 걸친 광범위한 적용 가능성

Stained Glass SDK의 주요 특징 중 하나는 모델 발전에 대한 탄력성이 뛰어나고 다음과 같은 최첨단 모델에 적응할 수 있다는 것입니다. 라마 2. 다음 그림은 이전에 일본어 텍스트 작업을 위해 미세 조정된 Llama 2 LLM에서 생성된 SGT를 보여줍니다. 이 예에서는 SGT가 모든 언어에 대해 생성 및 적용될 수 있으며 미세 조정된 모델에 대한 입력도 변환될 수 있음을 추가로 보여줍니다. SGT의 일반적인 적용 가능성은 모델 및 데이터에 구애받지 않는 Stained Glass SDK의 강력한 기반에 의해 주도됩니다.

미세 조정 데이터 및 프롬프트 보호

Stained Glass Transform은 추론 시 데이터 보호에만 국한되지 않습니다. 또한 기초 모델을 미세 조정하는 데 사용되는 데이터를 보호할 수도 있습니다. 미세 조정 데이터 세트를 위한 변환을 생성하는 프로세스는 이 게시물의 앞부분에 있는 솔루션 아키텍처 섹션에서 설명한 것과 동일합니다. 미세 조정 데이터에 액세스하지 않고도 기초 모델을 미세 조정할 수 있도록 변환이 생성됩니다. SGT가 기초 모델을 위해 생성되고 훈련된 후 미세 조정 데이터 세트는 기초 모델을 미세 조정하는 데 사용되는 무작위 재표현으로 변환됩니다. 이 프로세스는 다음 항목에 자세히 설명되어 있습니다. 동봉된 백서.

다음 예에서 기업 고객은 네트워크 로그 이상 탐지를 위해 기존 모델을 세부 조정해야 했습니다. 그들은 Stained Glass를 사용하여 민감한 미세 조정 데이터세트를 기초 모델을 미세 조정하는 데 사용된 무작위 임베딩으로 변환했습니다. 그들은 변환된 표현에 대해 미세 조정된 탐지 모델이 보호되지 않은 미세 조정 데이터 세트에서 기초 모델을 미세 조정하는 가상 시나리오와 비교하여 거의 동일한 정확도로 수행된다는 것을 발견했습니다. 다음 표는 미세 조정 데이터 세트의 일반 텍스트 데이터 레코드의 두 가지 예와 미세 조정 데이터 세트의 동일한 데이터 레코드의 텍스트 재구성을 보여줍니다.

LLM을 위한 Stained Glass Transform의 내부

컴퓨터 비전에 적용될 때 SGT는 입력 픽셀 기능에서 작동하고 LLM의 경우 임베딩 수준에서 작동합니다. Stained Glass Transform의 작동 방식을 강조하려면 다음 그림의 왼쪽에 표시된 대로 프롬프트 임베딩을 행렬로 상상해 보세요. 각 항목에는 결정적인 값이 있습니다. 이 값은 원본 데이터에 매핑되어 보호되지 않은 프롬프트를 노출할 수 있습니다. Stained Glass Transform은 이 결정적 값의 행렬을 요소가 가능성의 구름인 행렬로 변환합니다.

변환된 프롬프트는 SGT에 의해 정의된 확률 분포에서 노이즈를 샘플링하고 샘플링된 노이즈를 결정론적 임베딩에 추가하여 원래 프롬프트 값을 되돌릴 수 없게 무작위화함으로써 렌더링됩니다. 모델은 수학적 수준에서 무작위로 다시 표현된 프롬프트를 여전히 이해하고 해당 작업을 정확하게 수행할 수 있습니다.

“내게 능력 주시는 자 안에서 내가 모든 것을 할 수 있느니라”

이 게시물에서는 Protopia AI의 Stained Glass Transform이 원시 데이터 소유권과 ML 운영 프로세스의 보호를 분리하여 기업이 LLM 프롬프트 및 미세 조정 데이터에서 민감한 정보의 소유권을 유지하고 개인 정보 보호를 유지할 수 있도록 하는 방법에 대해 설명했습니다. LLM 사용을 위한 이 최첨단 데이터 보호를 사용함으로써 기업은 민감한 정보 노출에 대한 걱정을 덜고 기초 모델 및 LLM의 채택을 가속화할 수 있습니다. 실제 기업 데이터의 가치를 안전하게 활용함으로써 조직은 LLM의 약속된 효율성과 비즈니스 결과를 보다 효율적이고 빠르게 실현할 수 있습니다. 이 기술에 대해 자세히 알아보려면 다음에서 추가 자료를 찾을 수 있습니다. 동봉된 백서프로토피아 AI와 연결 액세스하여 기업 데이터에 사용해 보세요.

프로토피아 AI 소개

Protopia AI는 텍사스주 오스틴에 본사를 둔 데이터 보호 및 개인 정보 보호 AI/ML 기술 분야의 선두주자이며, 일반 텍스트 정보에 액세스할 필요 없이 AI 알고리즘과 소프트웨어 플랫폼이 작동할 수 있도록 하는 데 특화되어 있습니다. 지난 2년 동안 Protopia AI는 미 해군, 선도적인 금융 서비스 및 글로벌 기술 제공업체와 함께 다양한 ML 사용 사례 및 데이터 유형에 걸쳐 주력 Stained Glass Transform 제품을 성공적으로 시연했습니다.

Protopia AI는 기업, 생성 AI 및 LLM 제공업체, 클라우드 서비스 제공업체(CSP)와 협력하여 AI/ML 솔루션을 사용하는 동안 기업 데이터의 소유권과 기밀성을 유지할 수 있도록 지원합니다. Protopia AI는 AWS와 파트너십을 맺고 기업의 생성 AI 도입을 위한 데이터 보호 및 소유권의 중요한 구성 요소를 제공했으며, 창립 행사에 선정된 21개 스타트업 중 하나였습니다. 2023년의 AWS Generative AI Accelerator.


저자 소개

발라지 찬드라세카란 Protopia AI의 시장 진출 및 고객 지원 부문 부사장이며 고객과 긴밀히 협력하여 비즈니스에 AI를 활용하는 동시에 데이터 보호 및 개인 정보 보호를 우선시합니다. Protopia AI 이전에 Balaji는 Infor에서 AI 솔루션의 제품 리드로 근무하면서 가치 중심 제품을 개발하는 동시에 다양한 산업 분야의 기업 고객을 위한 신뢰할 수 있는 파트너 역할을 했습니다. 업무 외에는 음악, 하이킹, 가족과 함께 여행을 즐깁니다.

제니퍼 쿠와겐버그 Protopia AI의 엔지니어링 팀을 이끌고 Stained Glass 기술이 고객의 데이터 보호 요구 사항을 충족하도록 노력하고 있습니다. Jennifer는 Toyota의 제품 사이버 보안 그룹에서 근무하고 N-able에서 클라우드 워크로드를 관리하며 Match.com에서 데이터를 담당하는 보안 관련 경험이 있습니다.

앤드류 샌솜 그는 Protopia AI의 AI 솔루션 엔지니어로 기업이 AI를 사용하면서 데이터의 개인 정보와 민감한 정보를 보존하도록 돕습니다. Protopia AI 이전에는 금융, 제조, 의료, 교육 등 다양한 산업 분야의 고객을 위한 AI 솔루션 지원에 주력하는 기술 컨설턴트로 일했습니다. 그는 또한 고등학교, 대학교, 전문직 학생들에게 컴퓨터 공학과 수학을 가르쳤습니다.

에이만 에브라히미 박사, Protopia AI의 공동 창립자이자 CEO입니다. Ebrahimi 박사는 AI를 통해 다양한 사회 및 산업 분야에서 인간 경험을 풍부하게 만드는 데 열정을 갖고 있습니다. Protopia AI는 AI가 필요한 고품질 데이터를 관찰하는 동시에 민감한 정보를 보호하기 위한 새로운 기능을 생성하는 렌즈를 강화하려는 비전입니다. Protopia AI 이전에는 NVIDIA에서 9년 동안 수석 연구 과학자로 근무했습니다. NVIDIA 연구에서 그의 작업은 ML/AI의 대규모 데이터 세트에 액세스하는 문제를 해결하는 것을 목표로 했습니다. 그는 또한 수천 개의 GPU 성능을 활용하여 대규모 언어 모델 훈련을 실현하는 방법에 대한 동료 검토 간행물을 공동 집필했습니다.

로힛 탈루리 Amazon Web Services(AWS)의 Generative AI GTM 전문가입니다. 그는 최고의 생성 AI 모델 빌더, 전략적 고객, 주요 AI/ML 파트너 및 AWS 서비스 팀과 협력하여 AWS에서 차세대 인공 지능, 기계 학습 및 가속화된 컴퓨팅을 지원하고 있습니다. 그는 이전에 엔터프라이즈 솔루션 아키텍트이자 AWS 인수 합병 자문의 글로벌 솔루션 리드였습니다.

spot_img

최신 인텔리전스

spot_img