제퍼넷 로고

Amazon SageMaker 기반 PwC의 Machine Learning Ops Accelerator를 사용하여 대규모 고급 분석 결과 도출 | 아마존 웹 서비스

시간

이 게시물은 작성되었습니다 PwC Australia의 클라우드 및 디지털 사업부의 Ankur Goyal 및 Karthikeyan Chokappa와 협력합니다.

인공지능(AI)과 머신러닝(ML)은 시스템과 프로세스의 필수적인 부분이 되어 실시간 의사결정을 가능하게 하고 이를 통해 조직 전체의 수익과 수익을 향상시킵니다. 그러나 ML 모델을 대규모로 프로덕션에 적용하는 것은 어려운 일이며 일련의 모범 사례가 필요합니다. 많은 기업에는 이미 최첨단 모델을 구축할 수 있는 데이터 과학자와 ML 엔지니어가 있지만, 모델을 프로덕션 단계로 가져오고 모델을 대규모로 유지하는 것은 여전히 ​​어려운 과제입니다. 수동 워크플로는 ML 수명 주기 작업을 제한하여 개발 프로세스 속도를 늦추고 비용을 늘리며 최종 제품의 품질을 저하시킵니다.

MLOps(기계 학습 작업)는 DevOps 원칙을 ML 시스템에 적용합니다. DevOps가 소프트웨어 엔지니어링을 위한 개발과 운영을 결합한 것처럼 MLOps는 ML 엔지니어링과 IT 운영을 결합합니다. ML 시스템의 급속한 성장과 ML 엔지니어링의 맥락에서 MLOps는 ML 시스템의 실제 적용에 따른 고유한 복잡성을 처리하는 데 필요한 기능을 제공합니다. 전반적으로 ML 사용 사례에는 MLOps를 사용하여 대규모로 ML 모델을 개발에서 프로덕션 배포까지 가져오는 프로세스를 산업화하고 간소화하기 위해 쉽게 사용할 수 있는 통합 솔루션이 필요합니다.

이러한 고객 문제를 해결하기 위해 PwC Australia는 ML 수명주기 운영 전반에 걸쳐 팀 간 교차 기능 협업을 가능하게 하는 AI/ML 모델의 운영화를 개선하기 위한 표준화된 프로세스 및 기술 기능 세트로 Machine Learning Ops Accelerator를 개발했습니다. AWS 기본 서비스를 기반으로 구축된 PwC Machine Learning Ops Accelerator는 모든 업계의 고객이 ML 사용 사례에 쉽게 통합할 수 있는 적합한 솔루션을 제공합니다. 이 게시물에서는 ML 모델의 다양한 수명 주기 구성 요소를 통합하여 CI(지속적 통합), CD(지속적 배포), CT(지속적 교육), CM(지속적 모니터링)을 지원하는 ML 사용 사례를 구축 및 배포하는 데 중점을 둡니다.

솔루션 개요

MLOps에서 데이터에서 ML 모델, 비즈니스 시스템 및 프로세스의 권장 사항 및 예측으로의 성공적인 여정에는 몇 가지 중요한 단계가 포함됩니다. 여기에는 실험이나 프로토타입의 결과를 표준 제어, 품질 및 피드백 루프를 갖춘 생산 시스템으로 전환하는 작업이 포함됩니다. 이는 단순한 자동화 그 이상입니다. 이는 조직 관행을 개선하고 대규모로 반복 가능하고 재현 가능한 결과를 제공하는 것입니다.

실제 ML 사용 사례 중 극히 일부만이 모델 자체를 구성합니다. 통합된 고급 ML 기능을 구축하고 이를 대규모로 지속적으로 운영하는 데 필요한 다양한 구성 요소가 그림 1에 나와 있습니다. 다음 다이어그램에 표시된 것처럼 PwC MLOps Accelerator는 CI, CD, CT 및 CI를 활성화하는 XNUMX가지 핵심 통합 기능과 반복 단계로 구성됩니다. ML 사용 사례의 CM 이 솔루션은 AWS 기본 기능을 활용합니다. 아마존 세이지 메이커, 이를 중심으로 유연하고 확장 가능한 프레임워크를 구축합니다.

PwC Machine Learning Ops Accelerator 기능

그림 1 - PwC Machine Learning Ops Accelerator 기능

실제 기업 시나리오에서는 다양한 환경에서 모델의 엄격한 검증 및 배포를 보장하기 위해 추가 단계 및 테스트 단계가 존재할 수 있습니다.

  1. 데이터 및 모델 관리 수명 주기 전반에 걸쳐 ML 아티팩트를 관리하는 중앙 기능을 제공합니다. 이를 통해 감사 가능성, 추적 가능성 및 규정 준수가 가능해집니다. 또한 ML 자산의 공유성, 재사용성, 검색 가능성을 촉진합니다.
  2. ML 모델 개발 다양한 페르소나가 데이터 검증 및 변환부터 모델 교육 및 평가에 이르는 일련의 단계로 구성된 강력하고 재현 가능한 모델 교육 파이프라인을 개발할 수 있습니다.
  3. 지속적인 통합/배포 모델 훈련 파이프라인의 자동화된 구축, 테스트 및 패키징을 촉진하고 이를 대상 실행 환경에 배포합니다. CI/CD 워크플로 및 데이터 버전 관리와의 통합은 반복 개발 및 데이터 버전 관리를 위한 거버넌스 및 모니터링과 같은 MLOps 모범 사례를 촉진합니다.
  4. ML 모델 지속적인 학습 기능은 재훈련 트리거를 기반으로 훈련 파이프라인을 실행합니다. 즉, 새로운 데이터를 사용할 수 있게 되거나 모델 성능이 미리 설정된 임계값 아래로 떨어지게 됩니다. 성공적인 모델 후보로 자격을 갖춘 경우 훈련된 모델을 등록하고 훈련 아티팩트 및 관련 메타데이터를 저장합니다.
  5. 모델 배포 등록된 훈련된 모델에 액세스하여 프로덕션 릴리스를 검토 및 승인할 수 있으며, 프로덕션 제공을 위해 모델 패키징, 테스트 및 예측 서비스 환경에 배포할 수 있습니다.
  6. 예측 서비스 이 기능은 배포된 모델을 시작하여 온라인, 배치 또는 스트리밍 패턴을 통해 예측을 제공합니다. 또한 제공 런타임은 지속적인 모니터링 및 개선을 위해 모델 제공 로그를 캡처합니다.
  7. 지속적인 모니터링 모델 붕괴 및 서비스 효율성(대기 시간, 전체 파이프라인 및 실행 오류)을 감지하기 위해 모델의 예측 효율성을 모니터링합니다.

PwC Machine Learning Ops Accelerator 아키텍처

이 솔루션은 Amazon SageMaker 및 서버리스 기술을 사용하여 AWS 기반 서비스를 기반으로 구축되어 성능과 확장성을 높게 유지하고 운영 비용을 낮게 유지합니다.

PwC MLOps Accelerator 아키텍처

그림 2 - PwC Machine Learning Ops Accelerator 아키텍처 

  • PwC Machine Learning Ops Accelerator는 ML 엔지니어와 데이터 과학자가 파이프라인 배포(훈련 및 서비스)를 자동화하고 모델 품질 변화에 신속하게 대응할 수 있도록 구축, 사용, 운영에 대한 개인 기반 액세스 권한을 제공합니다. Amazon SageMaker 역할 관리자 역할 기반 ML 활동을 구현하는 데 사용됩니다. 아마존 S3 입력 데이터와 아티팩트를 저장하는 데 사용됩니다.
  • 솔루션은 고객의 기존 모델 생성 자산을 사용하고 AWS 기본 서비스를 사용하여 이를 중심으로 유연하고 확장 가능한 프레임워크를 구축합니다. Amazon S3, Git 및 AWS CodeCommit 간에 통합이 구축되어 향후 관리를 최소화하면서 데이터세트 버전 관리가 가능합니다.
  • AWS CloudFormation 템플릿은 다음을 사용하여 생성됩니다. AWS 클라우드 개발 키트(AWS CDK). AWS CDK는 전체 솔루션에 대한 변경 사항을 관리하는 기능을 제공합니다. 자동화된 파이프라인에는 기본 모델 저장 및 지표 추적을 위한 단계가 포함되어 있습니다.
  • PwC MLOps Accelerator는 모듈식으로 설계되었으며 코드형 인프라(IaC)로 제공되어 자동 배포가 가능합니다. 배포 프로세스에서는 다음을 사용합니다. AWS 코드 커밋, AWS 코드빌드, AWS 코드 파이프라인및 AWS CloudFormation 템플릿. ML 모델을 운용하기 위한 완전한 엔드투엔드 솔루션은 배포 가능한 코드로 제공됩니다.
  • 일련의 IaC 템플릿을 통해 모델 빌드, 모델 배포, 모델 모니터링 및 예측 제공이라는 세 가지 개별 구성 요소가 배포됩니다. Amazon SageMaker 파이프 라인
    • 모델 빌드 파이프라인은 모델 훈련 및 평가 프로세스를 자동화하고 훈련된 모델의 승인 및 등록을 가능하게 합니다.
    • 모델 배포 파이프라인은 일괄 및 실시간 추론을 위해 ML 모델을 배포하는 데 필요한 인프라를 프로비저닝합니다.
    • 모델 모니터링 및 예측 제공 파이프라인은 예측을 제공하고 모델 성능을 모니터링하는 데 필요한 인프라를 배포합니다.
  • PwC MLOps Accelerator는 ML 모델, ML 프레임워크 및 런타임 환경에 구애받지 않도록 설계되었습니다. 이 솔루션을 사용하면 구성 파일을 통해 Python 및 R과 같은 프로그래밍 언어, Jupyter Notebook과 같은 개발 도구, ML 프레임워크를 친숙하게 사용할 수 있습니다. 이러한 유연성 덕분에 데이터 과학자는 모델을 지속적으로 개선하고 선호하는 언어와 환경을 사용하여 배포할 수 있습니다.
  • 이 솔루션에는 사전 구축된 도구나 맞춤형 도구를 사용하여 라벨링 작업을 할당하는 통합 기능이 내장되어 있습니다. 아마존 세이지 메이커 그라운드 진실 지속적인 훈련과 모니터링을 제공하기 위한 훈련 데이터 세트입니다.
  • 엔드 투 엔드 ML 파이프라인은 SageMaker 기본 기능(아마존 세이지 메이커 스튜디오 , Amazon SageMaker 모델 구축 파이프라인, Amazon SageMaker 실험Amazon SageMaker 엔드포인트).
  • 이 솔루션은 모델 버전 관리, 모델 계보 추적, 모델 공유 및 서버리스 추론을 위해 Amazon SageMaker 내장 기능을 사용합니다. Amazon SageMaker 모델 레지스트리.
  • 모델이 생산되면 솔루션은 ML 모델의 품질을 실시간으로 지속적으로 모니터링합니다. Amazon SageMaker 모델 모니터 생산 중인 모델을 지속적으로 모니터링하는 데 사용됩니다. Amazon CloudWatch Logs는 모델 상태를 모니터링하는 로그 파일을 수집하는 데 사용되며, 모델 품질이 특정 임계값에 도달하면 Amazon SNS를 통해 알림이 전송됩니다. 다음과 같은 기본 로거(보토3)은 문제 해결을 촉진하기 위해 실행 상태를 캡처하는 데 사용됩니다.

솔루션 연습

다음 연습에서는 PwC MLOps Accelerator를 사용하여 모델에 대한 MLOps 프로세스를 생성하는 표준 단계를 자세히 살펴봅니다. 이 연습에서는 직관적인 간단한 정의/구성 파일을 사용하여 최근 개발된 ML 모델용 파이프라인을 배포하려는 MLOps 엔지니어의 사용 사례를 설명합니다.

PwC MLOps Accelerator 프로세스 수명주기

그림 3 - PwC Machine Learning Ops Accelerator 프로세스 수명주기

  • 시작하려면 등록하세요 PwC MLOps 액셀러레이터 솔루션 아티팩트에 액세스합니다. 전체 솔루션은 하나의 구성 YAML 파일(config.yaml) 모델별. 솔루션을 실행하는 데 필요한 모든 세부 정보는 해당 구성 파일에 포함되어 있으며 모델과 함께 Git 저장소에 저장됩니다. 구성 파일은 중요한 매개 변수와 설정을 코드 외부로 외부화하여 워크플로 단계를 자동화하는 입력 역할을 합니다.
  • ML 엔지니어는 다음을 채워야 합니다. config.yaml 파일을 제출하고 MLOps 파이프라인을 트리거합니다. 고객은 AWS 계정, 리포지토리, 모델, 사용된 데이터, 파이프라인 이름, 훈련 프레임워크, 훈련에 사용할 인스턴스 수, 추론 프레임워크, 사전 및 사후 처리 단계 및 기타 여러 가지를 구성할 수 있습니다. 모델 품질, 편향, 설명 가능성을 확인하기 위한 구성입니다.
기계 학습 작업 가속기 구성 YAML

그림 4 – Machine Learning Ops Accelerator 구성 YAML                                               

  • 간단한 YAML 파일은 각 모델의 교육, 배포, 모니터링 및 런타임 요구 사항을 구성하는 데 사용됩니다. 일단 config.yaml 적절하게 구성되어 모델과 함께 자체 Git 저장소에 저장되면 모델 구축 오케스트레이터가 호출됩니다. 또한 YAML을 통해 구성할 수 있는 자체 모델 가져오기(Bring-Your-Own-Model)에서 읽어 모델 빌드 파이프라인 배포를 트리거할 수도 있습니다.
  • 이 시점 이후의 모든 작업은 솔루션에 의해 자동화되며 ML 엔지니어나 데이터 과학자의 개입이 필요하지 않습니다. ML 모델 구축을 담당하는 파이프라인에는 데이터 전처리, 모델 교육, 모델 평가 및 ost 처리가 포함됩니다. 모델이 자동화된 품질 및 성능 테스트를 통과하면 모델은 레지스트리에 저장되고 YAML 파일의 정의에 따라 아티팩트가 Amazon S3 스토리지에 기록됩니다. 그러면 해당 ML 모델에 대한 모델 배포 파이프라인 생성이 트리거됩니다.
샘플 모델 배포 워크플로

그림 5 - 샘플 모델 배포 워크플로우                                                      

  • 다음으로 자동화된 배포 템플릿은 라이브 엔드포인트가 있는 스테이징 환경에서 모델을 프로비저닝합니다. 승인되면 모델이 프로덕션 환경에 자동으로 배포됩니다.
  • 이 솔루션은 두 개의 연결된 파이프라인을 배포합니다. 예측 제공은 예측을 제공할 수 있는 액세스 가능한 라이브 엔드포인트를 배포합니다. 모델 모니터링은 주요 모델 성능 및 품질 측정항목을 계산하는 지속적인 모니터링 도구를 생성하여 모델 품질의 중요한 변화가 감지되면 모델 재교육을 트리거합니다.
  • 이제 생성 및 초기 배포 과정을 마쳤으므로 MLOps 엔지니어는 파이프라인이 의도한 작업을 수행하지 못하는 경우와 같은 문제에 대해 경고하도록 실패 경고를 구성할 수 있습니다.
  • MLOps는 더 이상 기존 CI/CD 배포와 유사한 클라우드 서비스 구성 요소를 패키징, 테스트 및 배포하지 않습니다. 다른 서비스를 자동으로 배포해야 하는 시스템입니다. 예를 들어 모델 학습 파이프라인은 모델 배포 파이프라인을 자동으로 배포하여 예측 서비스를 활성화하고, 결과적으로 모델 모니터링 서비스를 활성화합니다.

결론

요약하자면, MLOps는 프로덕션 시스템에 ML 모델을 대규모로 배포하려는 모든 조직에 매우 중요합니다. PwC는 DevOps 도구를 모델 개발 프로세스에 통합하여 ML 모델 구축, 배포 및 유지 관리를 자동화하는 가속기를 개발했습니다.

이 게시물에서는 PwC 솔루션이 어떻게 AWS 기본 ML 서비스를 기반으로 하며 기업이 AI 여정의 속도를 높이고 ML 모델에서 더 많은 가치를 얻을 수 있도록 MLOps 방식을 채택하는 데 도움이 되는지 살펴보았습니다. 우리는 사용자가 PwC Machine Learning Ops Accelerator에 액세스하고, 파이프라인을 실행하고, ML 모델의 다양한 수명 주기 구성 요소를 통합하는 ML 사용 사례를 배포하기 위해 수행하는 단계를 살펴보았습니다.

대규모로 AWS 클라우드에서 MLOps 여정을 시작하고 ML 프로덕션 워크로드를 실행하려면 다음에 등록하세요. PwC 머신러닝 운영.


저자에 관하여

 키란 쿠마르 발라리 Amazon Web Services(AWS)의 수석 솔루션 아키텍트입니다. 그는 고객이 새로운 기술을 활용하고 반복 가능한 산업 솔루션을 구축하여 문제를 해결하도록 돕는 것을 좋아하는 전도자입니다. 그는 특히 소프트웨어 엔지니어링, Generative AI 및 기업의 AI/ML 제품 개발 지원에 열정을 갖고 있습니다.

안쿠르 고얄 PwC Australia의 클라우드 및 디지털 부문 이사로 데이터, 분석 및 AI에 중점을 두고 있습니다. Ankur는 데이터 자산과 기술을 활용하여 기술 혁신을 주도하고 혁신적인 솔루션을 설계하는 공공 및 민간 부문 조직을 지원하는 데 있어 광범위한 경험을 보유하고 있습니다.

카르티케얀 초카파 (KC)는 데이터, 분석 및 AI에 중점을 둔 PwC Australia의 클라우드 및 디지털 사업부의 관리자입니다. KC는 성능과 활용도를 향상하고 연결된 지능형 사물의 총 소유 비용을 줄이기 위해 데이터를 귀중한 의사 결정 자산으로 변환하는 엔드투엔드 분석 솔루션을 설계, 개발 및 배포하는 데 열정을 쏟고 있습니다.

라마 랑카라팔리 AWS의 수석 파트너 솔루션 아키텍트로서 PwC와 협력하여 고객의 AWS 마이그레이션 및 현대화를 가속화합니다. 그는 다양한 업계에서 AWS 클라우드 채택을 가속화하기 위해 노력하고 있습니다. 그의 전문 지식은 효율적이고 확장 가능한 클라우드 솔루션 설계, AWS 서비스를 활용하여 고객 애플리케이션의 혁신 및 현대화 추진, 탄력적인 클라우드 기반 구축에 있습니다.

지지 운왈라 고객이 문제를 해결하고 전략적으로 사고하도록 안내하는 것을 즐기는 AWS의 수석 솔루션 아키텍트입니다. 그는 기술과 데이터, 혁신 지원에 열정을 갖고 있습니다.

spot_img

최신 인텔리전스

spot_img