제퍼넷 로고

Thomson Reuters가 ML 프로젝트 제공을 가속화하기 위해 Amazon SageMaker를 사용하여 AI 플랫폼을 구축한 방법

시간

이 게시물은 Thomson Reuters의 Ramdev Wudali와 Kiran Mantripragada가 공동 작성했습니다.

1992년에 톰슨 로이터 (TR)은 최초의 AI 법률 연구 서비스인 WIN(Westlaw Is Natural)을 출시했는데, 이는 대부분의 검색 엔진이 부울 용어와 연결자만 지원했기 때문에 당시 혁신이었습니다. 그 이후로 TR은 매년 생성되는 수십억 개의 기계 학습(ML) 인사이트와 함께 AI 제품 및 서비스가 전 세계 법률, 세무, 회계, 규정 준수 및 뉴스 서비스 전문가를 지원하면서 그 수와 다양성이 지속적으로 증가함에 따라 더 많은 이정표를 달성했습니다. .

AI 서비스의 엄청난 증가와 함께 TR의 다음 이정표는 혁신을 간소화하고 협업을 촉진하는 것이었습니다. 엔터프라이즈 모범 사례를 준수하면서 비즈니스 기능 및 AI 실무자의 페르소나 전반에 걸쳐 AI 솔루션의 구축 및 재사용을 표준화합니다.

  • 반복적이고 차별화되지 않은 엔지니어링 작업을 자동화하고 표준화합니다.
  • 공통 거버넌스 표준에 따라 민감한 데이터의 필수 격리 및 제어를 보장합니다.
  • 확장 가능한 컴퓨팅 리소스에 대한 간편한 액세스 제공

이러한 요구 사항을 충족하기 위해 TR은 데이터 서비스, 실험 작업 공간, 중앙 모델 레지스트리, 모델 배포 서비스 및 모델 모니터링의 XNUMX가지 기둥을 중심으로 엔터프라이즈 AI 플랫폼을 구축했습니다.

이 게시물에서는 ML 실험, 교육, 중앙 모델 레지스트리, 모델 배포 및 모델 모니터링에 이르는 기능을 제공하는 웹 기반 도구인 TR의 최초의 Enterprise AI Platform을 개발하기 위해 TR과 AWS가 어떻게 협력했는지 논의합니다. 이러한 모든 기능은 끊임없이 진화하는 TR의 보안 표준을 처리하고 최종 사용자에게 간단하고 안전하며 규정을 준수하는 서비스를 제공하기 위해 구축되었습니다. 또한 TR이 단일 창을 통해 여러 비즈니스 단위에서 생성된 ML 모델에 대한 모니터링 및 거버넌스를 활성화한 방법을 공유합니다.

도전

역사적으로 TR에서 ML은 고급 데이터 과학자 및 엔지니어가 있는 팀의 기능이었습니다. 고도로 숙련된 리소스를 보유한 팀은 필요에 따라 복잡한 ML 프로세스를 구현할 수 있었지만 빠르게 사일로화되었습니다. 사일로 방식은 매우 중요한 의사 결정 예측에 거버넌스를 제공하는 가시성을 제공하지 않았습니다.

TR 비즈니스 팀은 방대한 도메인 지식을 보유하고 있습니다. 그러나 ML에 필요한 기술적 능력과 많은 엔지니어링 노력으로 인해 ML의 힘으로 비즈니스 문제를 해결하기 위해 깊은 전문 지식을 사용하기가 어렵습니다. TR은 기술을 민주화하여 조직 내 더 많은 사람들이 기술에 접근할 수 있기를 원합니다.

TR의 여러 팀은 자체 관행과 방법론을 따릅니다. TR은 팀이 반복적이고 차별화되지 않은 엔지니어링 노력이 아닌 비즈니스 목표에 집중할 수 있도록 하여 ML 프로젝트의 제공을 가속화하기 위해 ML 수명 주기 전반에 걸친 기능을 사용자에게 구축하고자 합니다.

또한 데이터 및 윤리적 AI에 대한 규정이 계속해서 발전하여 TR의 AI 솔루션 전반에 걸쳐 공통 거버넌스 표준을 요구합니다.

솔루션 개요

TR의 엔터프라이즈 AI 플랫폼은 ML 수명 주기의 모든 단계에 기능을 제공하여 다양한 페르소나에 단순하고 표준화된 서비스를 제공하도록 구상되었습니다. TR은 모든 TR의 요구 사항을 모듈화하는 XNUMX가지 주요 범주를 식별했습니다.

  • 데이터 서비스 – 엔터프라이즈 데이터 자산에 대한 쉽고 안전한 액세스를 가능하게 하기 위해
  • 실험 작업 공간 – ML 모델을 실험하고 교육하는 기능 제공
  • 중앙 모델 레지스트리 – 다양한 비즈니스 단위에 구축된 모델을 위한 엔터프라이즈 카탈로그
  • 모델 배포 서비스 – TR의 엔터프라이즈 CI/CD 사례에 따라 다양한 추론 배포 옵션 제공
  • 모델 모니터링 서비스 – 데이터를 모니터링하고 바이어스 및 드리프트를 모델링하는 기능을 제공합니다.

다음 다이어그램에 표시된 것처럼 이러한 마이크로서비스는 몇 가지 핵심 원칙을 염두에 두고 구축됩니다.

  • 사용자의 차별화되지 않은 엔지니어링 노력 제거
  • 버튼 클릭으로 필요한 기능 제공
  • TR의 엔터프라이즈 표준에 따라 모든 기능을 보호하고 관리합니다.
  • ML 활동을 위한 단일 창 가져오기

톰슨 로이터 AI 플랫폼

TR의 AI Platform 마이크로서비스는 아마존 세이지 메이커 코어 엔진, 워크플로용 AWS 서버리스 구성 요소, CI/CD 사례용 AWS DevOps 서비스. SageMaker 스튜디오 실험 및 교육에 사용되며 SageMaker 모델 레지스트리는 모델 등록에 사용됩니다. 중앙 모델 레지스트리는 SageMaker 모델 레지스트리와 아마존 DynamoDB 테이블. SageMaker 호스팅 서비스 모델을 배포하는 데 사용되는 반면 SageMaker 모델 모니터SageMaker 명확화 드리프트, 편향, 맞춤형 메트릭 계산기 및 설명 가능성에 대한 모델을 모니터링하는 데 사용됩니다.

다음 섹션에서는 이러한 서비스에 대해 자세히 설명합니다.

데이터 서비스

기존 ML 프로젝트 수명 주기는 데이터 찾기에서 시작됩니다. 일반적으로 데이터 과학자는 필요할 때 올바른 데이터를 찾는 데 시간의 60% 이상을 사용합니다. 모든 조직과 마찬가지로 TR에는 다양한 데이터 도메인에 대한 단일 지점 역할을 하는 여러 데이터 저장소가 있습니다. TR은 대부분의 ML 사용 사례에 데이터를 제공하는 두 가지 주요 엔터프라이즈 데이터 저장소인 개체 저장소와 관계형 데이터 저장소를 식별했습니다. TR은 AI Platform 데이터 서비스를 구축하여 사용자의 실험 작업 공간에서 두 데이터 저장소에 대한 액세스를 원활하게 제공하고 사용자가 스스로 데이터를 획득하기 위해 복잡한 프로세스를 탐색해야 하는 부담을 제거했습니다. TR의 AI 플랫폼은 데이터 및 모델 거버넌스 팀에서 정의한 모든 규정 준수 및 모범 사례를 따릅니다. 여기에는 ML 실무자가 데이터에 대한 적절한 액세스를 보장하기 위한 공식 승인 프로세스와 함께 윤리적이고 적절한 데이터 사용을 이해하고 준수하도록 돕는 필수 데이터 영향 평가가 포함됩니다. 모든 플랫폼 서비스뿐만 아니라 이 서비스의 핵심은 TR 및 업계에서 결정한 모범 사례에 따른 보안 및 규정 준수입니다.

아마존 단순 스토리지 서비스 (Amazon S3) 객체 스토리지는 콘텐츠 데이터 레이크 역할을 합니다. TR은 필요한 인증 및 감사 가능성을 유지하면서 콘텐츠 데이터 레이크에서 사용자의 실험 작업 공간까지 데이터에 안전하게 액세스하는 프로세스를 구축했습니다. Snowflake는 엔터프라이즈 관계형 기본 데이터 저장소로 사용됩니다. 사용자 요청 시 데이터 소유자의 승인에 따라 AI Platform 데이터 서비스는 사용자가 실험 작업 공간에서 즉시 사용할 수 있는 데이터 스냅샷을 제공합니다.

다양한 소스의 데이터에 액세스하는 것은 쉽게 해결할 수 있는 기술적인 문제입니다. 그러나 TR이 해결한 복잡성은 데이터 소유자 식별, 액세스 요청 전송, 데이터 소유자에게 보류 중인 액세스 요청이 있음을 알리고 승인 상태에 따라 데이터를 제공하기 위한 조치를 취하는 승인 워크플로를 구축하는 것입니다. 요청자. 이 프로세스 전반에 걸친 모든 이벤트는 감사 및 규정 준수를 위해 추적되고 기록됩니다.

다음 다이어그램에 표시된 것처럼 TR은 다음을 사용합니다. AWS 단계 함수 워크플로를 조율하고 AWS 람다 기능을 실행합니다. 아마존 API 게이트웨이 웹 포털에서 사용할 API 끝점으로 기능을 노출하는 데 사용됩니다.
데이터 서비스

모델 실험 및 개발

ML 수명 주기를 표준화하기 위한 필수 기능은 데이터 과학자가 다양한 ML 프레임워크 및 데이터 크기를 실험할 수 있는 환경입니다. 몇 분 안에 클라우드에서 이러한 안전하고 규정을 준수하는 환경을 구현하면 데이터 과학자가 클라우드 인프라, 네트워킹 요구 사항 및 보안 표준 조치를 처리하는 부담에서 벗어나 대신 데이터 과학 문제에 집중할 수 있습니다.

TR은 다음과 같은 서비스에 대한 액세스를 제공하는 실험 작업 공간을 구축합니다. AWS 접착제, 아마존 EMR, SageMaker Studio는 엔터프라이즈 클라우드 보안 표준과 모든 사업부에 필요한 계정 격리를 준수하는 데이터 처리 및 ML 기능을 지원합니다. TR은 솔루션을 구현하는 동안 다음과 같은 문제에 직면했습니다.

  • 초기의 오케스트레이션은 완전히 자동화되지 않았으며 여러 수동 단계가 필요했습니다. 문제가 발생한 위치를 추적하는 것은 쉽지 않았습니다. TR은 Step Functions를 사용하여 워크플로를 오케스트레이션하여 이 오류를 극복했습니다. Step Functions를 사용하여 복잡한 워크플로 구축, 상태 관리 및 오류 처리가 훨씬 쉬워졌습니다.
  • 적절한 AWS 자격 증명 및 액세스 관리 (IAM) 실험 작업 영역에 대한 역할 정의는 정의하기 어려웠습니다. TR의 내부 보안 표준 및 최소 권한 모델을 준수하기 위해 원래 작업 공간 역할은 인라인 정책으로 정의되었습니다. 결과적으로 인라인 정책은 시간이 지남에 따라 커지고 장황해져서 IAM 역할에 허용된 정책 크기 제한을 초과했습니다. 이를 완화하기 위해 TR은 더 많은 고객 관리형 정책을 사용하고 작업 영역 역할 정의에서 이를 참조하도록 전환했습니다.
  • TR은 때때로 AWS 계정 수준에서 적용되는 기본 리소스 제한에 도달했습니다. 이로 인해 원하는 리소스 유형 제한에 도달하여 SageMaker 작업(예: 교육 작업)을 시작하는 데 가끔 실패했습니다. TR은 이 문제에 대해 SageMaker 서비스 팀과 긴밀히 협력했습니다. 이 문제는 AWS 팀이 SageMaker를 지원 서비스로 출시한 후 해결되었습니다. 서비스 할당량 6월 2022있다.

현재 TR의 데이터 과학자는 독립적인 작업 공간을 만들고 협업에 필요한 팀원을 추가하여 ML 프로젝트를 시작할 수 있습니다. SageMaker에서 제공하는 무제한 확장은 다양한 크기의 사용자 지정 커널 이미지를 제공하여 손쉽게 사용할 수 있습니다. SageMaker Studio는 빠르게 TR의 AI 플랫폼에서 중요한 구성 요소가 되었으며 제한적인 데스크톱 애플리케이션 사용에서 확장 가능하고 일시적인 전용 엔진으로 사용자 행동을 변경했습니다. 다음 다이어그램은 이 아키텍처를 보여줍니다.

모델 실험 및 개발

중앙 모델 레지스트리

모델 레지스트리는 TR의 모든 기계 학습 모델에 대한 중앙 리포지토리를 제공하고 비즈니스 기능 전반에 걸쳐 표준화된 방식으로 위험 및 상태 관리를 가능하게 하며 잠재적인 모델의 재사용을 간소화합니다. 따라서 서비스는 다음을 수행해야 했습니다.

  • SageMaker 내부 또는 외부에서 개발되었는지 여부에 상관없이 신규 모델과 레거시 모델을 모두 등록할 수 있는 기능을 제공합니다.
  • 거버넌스 워크플로를 구현하여 데이터 과학자, 개발자 및 이해 관계자가 모델의 수명 주기를 보고 공동으로 관리할 수 있도록 합니다.
  • 메타데이터 및 상태 메트릭과 함께 TR 전체의 모든 모델에 대한 중앙 집중식 보기를 생성하여 투명성과 협업을 높입니다.

TR은 SageMaker 모델 레지스트리만으로 설계를 시작했지만 TR의 주요 요구 사항 중 하나는 SageMaker 외부에서 생성된 모델을 등록하는 기능을 제공하는 것입니다. TR은 다양한 관계형 데이터베이스를 평가했지만 레거시 소스에서 오는 모델의 메타데이터 스키마가 매우 다르기 때문에 결국 DynamoDB를 선택하게 되었습니다. TR은 또한 사용자에게 추가 작업을 부과하고 싶지 않았기 때문에 다음을 사용하여 AI Platform 작업 공간 SageMaker 레지스트리와 중앙 SageMaker 레지스트리 간의 원활한 자동 동기화를 구현했습니다. 아마존 이벤트 브리지 규칙 및 필수 IAM 역할. TR은 사용자의 데스크톱에서 생성된 레거시 모델을 등록하는 기능을 확장하기 위해 DynamoDB로 중앙 레지스트리를 개선했습니다.

TR의 AI Platform 중앙 모델 레지스트리는 AI Platform 포털에 통합되어 있으며 모델 검색, 모델 메타데이터 업데이트, 모델 기준 측정항목 및 주기적인 커스텀 모니터링 측정항목 이해를 위한 시각적 인터페이스를 제공합니다. 다음 다이어그램은 이 아키텍처를 보여줍니다.

중앙 모델 레지스트리

모델 배포

TR은 배포를 자동화하기 위한 두 가지 주요 패턴을 식별했습니다.

  • SageMaker 일괄 변환 작업을 통해 SageMaker를 사용하여 개발된 모델은 선호하는 일정에 따라 추론을 얻습니다.
  • 코드를 리팩토링하지 않고 해당 모델을 마이그레이션하는 효율적인 방법으로 SageMaker 처리 작업을 사용하여 사용자 지정 추론 코드를 실행하는 자체 컨테이너 접근 방식을 통해 오픈 소스 라이브러리를 사용하여 로컬 데스크톱에서 SageMaker 외부에서 개발된 모델

AI Platform 배포 서비스를 통해 TR 사용자(데이터 과학자 및 ML 엔지니어)는 카탈로그에서 모델을 식별하고 UI 기반 워크플로를 통해 필요한 매개 변수를 제공하여 선택한 AWS 계정에 추론 작업을 배포할 수 있습니다.

TR은 다음과 같은 AWS DevOps 서비스를 사용하여 이 배포를 자동화했습니다. AWS 코드 파이프라인AWS 코드빌드. TR은 Step Functions를 사용하여 SageMaker 추론 작업 생성에 대한 데이터 읽기 및 사전 처리 워크플로를 조율합니다. TR은 다음을 사용하여 필요한 구성 요소를 코드로 배포합니다. AWS 클라우드 포메이션 템플릿. 다음 다이어그램은 이 아키텍처를 보여줍니다.

모델 배포

모델 모니터링

모델을 모니터링할 수 없으면 ML 수명 주기가 완료되지 않습니다. TR의 엔터프라이즈 거버넌스 팀은 또한 비즈니스 팀이 규제 문제를 해결하기 위해 시간이 지남에 따라 모델 성능을 모니터링하도록 지시하고 권장합니다. TR은 드리프트에 대한 모니터링 모델과 데이터로 시작했습니다. TR은 SageMaker Model Monitor를 사용하여 TR의 데이터와 추론이 어떻게 표류하는지 주기적으로 모니터링하기 위해 데이터 기준선과 추론 근거를 제공했습니다. SageMaker 모델 모니터링 메트릭과 함께 TR은 모델에 특정한 맞춤형 메트릭을 개발하여 모니터링 기능을 향상했습니다. 이것은 TR의 데이터 과학자들이 언제 모델을 재교육해야 하는지 이해하는 데 도움이 될 것입니다.

드리프트 모니터링과 함께 TR은 모델의 편향도 이해하고자 합니다. SageMaker Clarify의 즉시 사용 가능한 기능은 TR의 편향 서비스를 구축하는 데 사용됩니다. TR은 데이터와 모델 편향을 모두 모니터링하고 AI Platform 포털을 통해 사용자가 이러한 측정항목을 사용할 수 있도록 합니다.

모든 팀이 이러한 엔터프라이즈 표준을 채택할 수 있도록 TR은 이러한 서비스를 독립적으로 만들고 AI Platform 포털을 통해 즉시 사용할 수 있도록 했습니다. TR의 비즈니스 팀은 포털에 들어가 자체적으로 모델 모니터링 작업 또는 바이어스 모니터링 작업을 배포하고 원하는 일정에 따라 실행할 수 있습니다. 작업 상태와 모든 실행에 대한 메트릭에 대한 알림을 받습니다.

TR은 CI/CD 배포, 워크플로 오케스트레이션, 서버리스 프레임워크 및 API 엔드포인트에 AWS 서비스를 사용하여 다음 아키텍처와 같이 독립적으로 트리거할 수 있는 마이크로서비스를 구축했습니다.
모델 모니터링

결과 및 향후 개선 사항

TR의 AI Platform은 3년 2022분기에 데이터 서비스, 실험 작업 공간, 중앙 모델 레지스트리, 모델 배포 및 모델 모니터링의 XNUMX가지 주요 구성 요소와 함께 가동되었습니다. TR은 사업부를 대상으로 내부 교육 세션을 진행하여 플랫폼을 온보딩하고 자체 교육 비디오를 제공했습니다.

AI Platform은 TR의 팀에 이전에는 없었던 기능을 제공했습니다. 이는 TR의 엔터프라이즈 거버넌스 팀이 규정 준수 표준을 강화하고 레지스트리를 중앙 집중화하여 TR 내의 모든 ML 모델에 대한 단일 창 보기를 제공할 수 있는 광범위한 가능성을 열었습니다.

TR은 어떤 제품도 초기 릴리스에서 최상의 상태가 아님을 인정합니다. TR의 모든 구성 요소는 성숙도가 다르며 TR의 Enterprise AI Platform 팀은 제품 기능을 반복적으로 개선하기 위해 지속적인 개선 단계에 있습니다. TR의 현재 발전 파이프라인에는 실시간, 비동기식 및 다중 모델 엔드포인트와 같은 추가 SageMaker 추론 옵션 추가가 포함됩니다. TR은 또한 모델 모니터링 서비스에 모델 설명 가능성을 기능으로 추가할 계획입니다. TR은 SageMaker Clarify의 설명 기능을 사용하여 내부 설명 서비스를 개발할 계획입니다.

결론

TR은 이제 방대한 양의 데이터를 안전하게 처리하고 고급 AWS 기능을 사용하여 이전에 몇 개월이 걸렸던 것과 비교하여 몇 주 만에 ML 프로젝트를 구상에서 프로덕션으로 가져올 수 있습니다. AWS 서비스의 즉시 사용 가능한 기능을 통해 TR 내의 팀은 처음으로 ML 모델을 등록하고 모니터링하여 진화하는 모델 거버넌스 표준을 준수할 수 있습니다. TR은 데이터 과학자와 제품 팀이 창의력을 효과적으로 발휘하여 가장 복잡한 문제를 해결할 수 있도록 지원했습니다.

TR의 Enterprise AI Platform on AWS에 대해 자세히 알아보려면 다음을 확인하십시오. AWS re:Invent 2022 세션. TR이 다음을 사용하여 기계 학습 사용을 가속화한 방법을 알고 싶다면 AWS 데이터 랩 프로그램, 참조 사례 연구.


저자에 관하여

람데브 우달리 데이터 설계자로서 AI/ML 플랫폼을 설계하고 구축하여 데이터 과학자와 연구원이 인프라 요구 사항이 아닌 데이터 과학에 집중하여 기계 학습 솔루션을 개발할 수 있도록 지원합니다. 여가 시간에 그는 종이 접기 테셀레이션을 만들기 위해 종이를 접고 불손한 티셔츠를 입는 것을 좋아합니다.

키란 만트리프라가다 Thomson Reuters의 AI 플랫폼 수석 이사입니다. AI Platform 팀은 프로덕션급 AI 소프트웨어 애플리케이션을 지원하고 데이터 과학자 및 기계 학습 연구원의 작업을 지원하는 일을 담당합니다. 과학, AI 및 엔지니어링에 대한 열정으로 Kiran은 최종 소비자에게 AI의 진정한 혁신을 제공하기 위해 연구와 제품화 사이의 격차를 해소하는 것을 좋아합니다.

바바나 치루마밀라 AWS의 수석 상주 설계자입니다. 그녀는 데이터 및 ML 운영에 열정을 가지고 있으며 기업이 데이터 및 ML 전략을 구축하는 데 도움이 되는 많은 열정을 가지고 있습니다. 여가 시간에는 가족과 함께 여행, 하이킹, 정원 가꾸기, 다큐멘터리 시청 등을 즐깁니다.

스리니바사 샤이크 보스턴에 본사를 둔 AWS의 솔루션 아키텍트입니다. 그는 기업 고객이 클라우드로의 여정을 가속화하도록 돕습니다. 그는 컨테이너 및 기계 학습 기술에 열정적입니다. 여가 시간에는 가족과 함께 시간을 보내고 요리와 여행을 즐깁니다.

칭 웨이 리 Amazon Web Services의 기계 학습 전문가입니다. 그는 고문의 연구 보조금 계좌를 깨고 그가 약속 한 노벨상을 제공하지 못한 후 운영 연구 박사 학위를 받았습니다. 현재 그는 금융 서비스 및 보험 업계의 고객이 AWS에서 기계 학습 솔루션을 구축하도록 돕고 있습니다. 여가 시간에는 읽기와 가르치기를 좋아합니다.

spot_img

최신 인텔리전스

spot_img