제퍼넷 로고

Genworth가 Amazon SageMaker 및 AWS Glue를 사용하여 AWS에서 서버리스 ML 파이프 라인을 구축 한 방법

시간

이 게시물은 Genworth Mortgage Insurance Australia Limited의 데이터 과학자 인 Liam Pearson과 공동으로 작성되었습니다.

겐워스 Mortgage Insurance Australia Limited는 호주의 선도적 인 대출 기관 모기지 보험 (LMI) 제공 업체입니다. 그들의 주식은 호주 증권 거래소에서 ASX : GMA로 거래됩니다.

Genworth Mortgage Insurance Australia Limited는 모기지 상환 패턴과 보험 청구 간의 종속성에 대한 데이터를 포함하여 50 년 이상의 경험과 수집 된 데이터를 보유한 대출자 모기지 보험사입니다. Genworth는이 기록 정보를 사용하여 PALM (Predictive Analytics for Loss Mitigation) 기계 학습 (ML) 모델을 학습하고자했습니다. ML 모델을 통해 Genworth는 각 보험 정책에 대한 최근 상환 패턴을 분석하여 가능성 (청구 가능성) 및 영향 (보험 금액)의 내림차순으로 우선 순위를 지정할 수 있습니다. Genworth는 솔루션을 구축하고 운영하기위한 노력의 양을 최소화하면서 ML 모델에 대해 병렬 및 일정에 따라 일괄 추론을 실행하기를 원했습니다. 따라서 Genworth와 AWS는 아마존 세이지 메이커 일괄 변환 작업 및 서버리스 빌딩 블록을 사용하여 데이터를 수집 및 변환하고, ML 추론을 수행하고, 분석 결과를 처리 및 게시합니다.

Genworth의 고급 분석 팀은 AWS 데이터 랩 데이터 랩 엔지니어 및 솔루션 설계자가 이끄는 프로그램. 랩 전 단계에서 그들은 금융 서비스 산업의 특성을 고려할 때 특히 보안 제어와 관련하여 Genworth의 특정 요구 사항에 맞는 솔루션 아키텍처를 만들었습니다. 아키텍처가 승인되고 모든 AWS 빌딩 블록이 식별 된 후 교육 요구 사항이 결정되었습니다. AWS Solutions Architects는 Genworth의 빌더에게 새로운 솔루션을 구축하는 데 필요한 기술을 제공하기 위해 일련의 실습 워크숍을 실시했습니다. Genworth Advanced Analytics 팀은 빌드 단계라고하는 4 일간의 집중적 인 공동 작업에서 아키텍처와 학습을 사용하여 기능 요구 사항에 맞는 ML 파이프 라인을 구축했습니다. 파이프 라인은 완전히 자동화되고 서버리스이므로 유지 관리, 확장 문제 또는 다운 타임이 없습니다. 실습 후 활동은 파이프 라인을 생산하고 다른 ML 사용 사례에 대한 청사진으로 채택하는 데 중점을 두었습니다.

이 게시물에서 우리 (Genworth와 AWS Architects의 공동 팀)는 솔루션의 설계 및 구현에 어떻게 접근했는지, 우리가 따랐던 모범 사례, 사용한 AWS 서비스 및 솔루션 아키텍처의 주요 구성 요소에 대해 설명합니다.

솔루션 개요

Genworth를위한 PALM 솔루션을 구현하기 위해 최신 ML 파이프 라인 패턴을 따랐습니다. 이 패턴을 사용하면 다양한 소스에서 데이터를 수집 한 후 데이터를 변환, 보강 및 정리 한 다음 ML 예측 단계를 수행하여 출력 데이터 랭 글링 유무에 관계없이 사용할 수있는 결과로 마무리 할 수 ​​있습니다.

간단히 말해, 구현 된 솔루션에는 세 가지 구성 요소가 있습니다.

  • 데이터 수집 및 준비
  • 세 가지 사용자 지정 개발 ML 모델을 사용한 ML 일괄 추론
  • 소비를위한 데이터 후 처리 및 게시

다음은 구현 된 솔루션의 아키텍처 다이어그램입니다.

세 가지 구성 요소에 대해 자세히 살펴 보겠습니다.

구성 요소 1 : 데이터 수집 및 준비

Genworth 소스 데이터는 Oracle 온-프레미스 데이터베이스의 스테이징 테이블에 매주 게시됩니다. ML 파이프 라인은 AWS 접착제 작업 (다이어그램의 1 단계, 데이터 수집)을 통해 Oracle 데이터베이스에 연결 AWS Direct Connect 원시 데이터를 수집하고 암호화 된 파일에 저장하기 위해 VPN으로 보안 연결 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 그런 다음 AWS Glue (2 단계, 데이터 준비)를 사용하여 Python 셸 작업을 실행하여 나중에 ML 추론 단계에서 사용되는 기능을 선택, 정리 및 변환합니다. 결과는 ML 소비를 위해 준비된 선별 된 데이터 세트에 사용되는 다른 암호화 된 S3 버킷에 저장됩니다.

구성 요소 2 : ML 배치 추론

Genworth의 Advanced Analytics 팀은 이미 온 프레미스에서 ML을 사용하고 있습니다. 그들은 사전 훈련 된 모델 아티팩트를 재사용하여 AWS에서 완전히 자동화 된 ML 추론 파이프 라인을 구현하기를 원했습니다. 또한 팀은 향후 ML 실험 및 구현을위한 아키텍처 패턴을 설정하여 통제 된 환경에서 아이디어를 빠르게 반복하고 테스트 할 수 있기를 원했습니다.

PALM 모델을 구성하는 세 가지 기존 ML 아티팩트는 Keras를 사용하여 계층 적 TensorFlow 신경망 모델로 구현되었습니다. 이 모델은 보험 증권이 청구를 제출할 확률, 청구가 지불 될 것으로 예상되는 확률 및 가능한 청구의 규모를 예측합니다.

각 ML 모델은 서로 다른 데이터에 대해 학습되므로 그에 따라 입력 데이터를 표준화해야합니다. 개별 AWS Glue Python 셸 작업은 각 모델에 따라이 데이터 표준화를 수행합니다. 세 가지 ML 모델은 다음을 사용하여 병렬로 호출됩니다. SageMaker 일괄 변환 작업 (3 단계, ML 배치 예측)을 통해 ML 추론을 수행하고 예측 결과를 모델 출력 S3 버킷에 저장합니다. SageMaker 일괄 변환은 컴퓨팅 리소스를 관리하고, ML 모델을 설치하고, Amazon S3와 ML 모델 간의 데이터 전송을 처리하고, 전체 데이터 세트에 대한 추론을 수행하도록 쉽게 확장합니다.

구성 요소 3 : 데이터 후 처리 및 게시

세 가지 ML 모델의 예측 결과를 사용할 준비가되기 전에 AWS Glue Python 셸 작업을 사용하여 수행 된 일련의 후 처리 단계가 필요합니다. 결과는 집계되고 점수가 매겨집니다 (4 단계, PALM Scoring), 적용된 비즈니스 규칙 (5 단계, 비즈니스 규칙), 생성 된 파일 (6 단계, 사용자 파일 생성), 이전에 검증 된 파일의 데이터 (7 단계, 유효성 검사) 이러한 단계의 출력을 온-프레미스 Oracle 데이터베이스의 테이블에 다시 게시합니다 (8 단계, 결과 제공). 솔루션은 아마존 단순 알림 서비스 (Amazon SNS) 및 Amazon CloudWatch 이벤트 새 데이터를 사용할 수있게되거나 문제가 발생하면 이메일을 통해 사용자에게 알립니다 (10 단계, 경고 및 알림).

ML 파이프 라인의 모든 단계는 다음을 사용하여 분리 및 오케스트레이션됩니다. AWS 단계 함수, Genworth는 구현의 용이성, 스캐 폴딩 대신 비즈니스 로직에 집중할 수있는 기능, 향후 실험 및 기타 ML 사용 사례에 필요한 유연성을 제공합니다. 다음 다이어그램은 Step Functions 상태 머신을 사용한 ML 파이프 라인 오케스트레이션을 보여줍니다.

비즈니스 이점과 다음 단계

최신 ML 플랫폼을 구축함으로써 Genworth는 온 프레미스에서 Oracle 데이터베이스의 데이터를 수집하고, ML 작업을 수행하고, 비즈니스가 데이터 기반 결정을 내리는 데 도움이되는 종단 간 ML 추론 프로세스를 자동화 할 수있었습니다. 기계 학습은 Genworth가 손실 완화 팀이 수행하는 고 가치 수동 작업을 단순화하는 데 도움이됩니다.

이 Data Lab 참여는 조직 내 팀이 최신 ML 및 분석 도구를 사용할 수 있도록하는 것의 중요성을 보여주었습니다. 아이디어가 얼마나 빨리 조종되고 성공한다면 생산 될 수 있는지 목격 한 놀라운 경험이었습니다.

이 게시물에서는 AWS Data Analytics 및 ML 서비스를 사용하여 서버리스 ML 파이프 라인을 대규모로 구축하는 것이 얼마나 쉬운 지 보여주었습니다. 앞서 설명한대로 서버리스 관리 형 ETL 처리 작업에는 AWS Glue를 사용하고 모든 ML 요구 사항에는 SageMaker를 사용할 수 있습니다. 빌드에서 최선을 다하십시오!

Genworth, Genworth Financial 및 Genworth 로고는 Genworth Financial, Inc.의 등록 서비스 마크이며 라이선스에 따라 사용됩니다.


저자에 관하여

 리암 피어슨 Genworth Mortgage Insurance Australia Limited의 데이터 과학자로 비즈니스 내 다양한 ​​팀을위한 ML 모델을 구축하고 배포합니다. 여가 시간에 Liam은 라이브 음악 감상, 수영, 진정한 밀레 니얼 세대처럼 으깬 아보카도를 즐깁니다.

마리아 소 콜로 바 Amazon Web Services의 솔루션 아키텍트입니다. 그녀는 기업 고객이 가장 필요한 곳에 기술 전문 지식과 변환 지침을 제공하여 레거시 시스템을 현대화하고 중요한 프로젝트를 가속화하도록 돕습니다.

V암시 크리슈나 에나 보 탈라 AWS의 데이터 랩 솔루션 아키텍트입니다. Vamshi는 사용 사례에서 고객과 협력하고 비즈니스 문제를 해결하기위한 솔루션을 설계하며 확장 가능한 프로토 타입을 구축하도록 지원합니다. 직장 밖에서 Vamshi는 RC 장비 (자동차, 보트, 드론)를 조립하고 가지고 노는 RC 애호가이며 정원 가꾸기도 즐깁니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/how-genworth-built-a-serverless-ml-pipeline-on-aws-using-amazon-sagemaker-and-aws-glue/

spot_img

최신 인텔리전스

spot_img