제퍼넷 로고

Amazon SageMaker Canvas에서 ML을 위한 데이터 준비 가속화 | 아마존 웹 서비스

시간

데이터 준비는 모든 기계 학습(ML) 워크플로에서 중요한 단계이지만 지루하고 시간이 많이 걸리는 작업이 포함되는 경우가 많습니다. Amazon SageMaker 캔버스 이제 포괄적인 데이터 준비 기능을 지원합니다. Amazon SageMaker 데이터 랭글러. 이러한 통합을 통해 SageMaker Canvas는 고객에게 데이터를 준비하고, ML 및 기반 모델을 구축 및 사용하여 데이터에서 비즈니스 통찰력까지 시간을 단축할 수 있는 엔드투엔드 코드 없는 작업 공간을 제공합니다. 이제 50개 이상의 데이터 소스에서 데이터를 쉽게 검색 및 집계할 수 있으며, SageMaker Canvas의 시각적 인터페이스에서 300개 이상의 기본 제공 분석 및 변환을 사용하여 데이터를 탐색 및 준비할 수 있습니다. 또한 변환 및 분석을 위한 더 빠른 성능과 ML용 데이터를 탐색하고 변환하는 자연어 인터페이스를 확인할 수 있습니다.

이 게시물에서는 SageMaker Canvas에서 엔드투엔드 모델 구축을 위한 데이터를 준비하는 프로세스를 안내합니다.

솔루션 개요

사용 사례에서는 금융 서비스 회사의 데이터 전문가의 역할을 가정합니다. 우리는 두 개의 샘플 데이터 세트를 사용하여 대출자가 대출금을 완전히 상환할지 여부를 예측하는 ML 모델을 구축합니다. 이는 신용 위험 관리에 중요합니다. SageMaker Canvas의 코드 없는 환경을 사용하면 코딩 없이 신속하게 데이터를 준비하고, 기능을 엔지니어링하고, ML 모델을 교육하고, 엔드투엔드 워크플로에서 모델을 배포할 수 있습니다.

사전 조건

이 연습을 진행하려면 에 자세히 설명된 필수 구성 요소를 구현했는지 확인하세요.

  1. Amazon SageMaker 캔버스 출시. 이미 SageMaker Canvas 사용자라면 다음 사항을 확인하세요. 로그 아웃 이 새로운 기능을 사용하려면 다시 로그인하세요.
  2. Snowflake에서 데이터를 가져오려면 다음 단계를 따르세요. Snowflake용 OAuth 설정.

대화형 데이터 준비

설정이 완료되면 이제 대화형 데이터 준비를 활성화하는 데이터 흐름을 생성할 수 있습니다. 데이터 흐름은 데이터를 정리하기 위한 기본 제공 변환 및 실시간 시각화를 제공합니다. 다음 단계를 완료하세요.

  1. 다음 방법 중 하나를 사용하여 새 데이터 흐름을 만듭니다.
    1. 왼쪽 메뉴에서 데이터 랭글러, 데이터 흐름다음을 선택 만들기.
    2. SageMaker Canvas 데이터 세트를 선택하고 데이터 흐름 만들기.
  2. 왼쪽 메뉴에서 데이터 가져 오기 선택 표의 드롭 다운 목록에서
  3. 다음과 같은 50개 이상의 데이터 커넥터를 통해 데이터를 직접 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트, 눈송이 및 Salesforce. 이 연습에서는 Snowflake에서 직접 데이터를 가져오는 방법을 다룹니다.

또는 로컬 머신에서 동일한 데이터 세트를 업로드할 수 있습니다. 데이터세트를 다운로드할 수 있습니다. 대출-부분-1.csv대출-부분-2.csv.

  1. 데이터 가져오기 페이지의 목록에서 Snowflake를 선택하고 연결을 추가합니다.

  2. 연결 이름을 입력하고 OAuth를 인증 방법 드롭다운 목록에서 옵션을 선택하세요. okta 계정 ID를 입력하고 연결 추가를 선택합니다.
  3. 인증을 위해 Okta 자격 증명을 입력하려면 Okta 로그인 화면으로 리디렉션됩니다. 인증에 성공하면 데이터 흐름 페이지로 리디렉션됩니다.
  4. Snowflake 데이터베이스에서 대출 데이터 세트를 찾아보세요.

화면 왼쪽에서 오른쪽으로 드래그 앤 드롭하여 두 개의 대출 데이터 세트를 선택합니다. 두 데이터세트가 연결되고 빨간색 느낌표가 있는 조인 기호가 나타납니다. 그것을 클릭한 다음 두 데이터세트 모두에 대해 선택합니다. id 열쇠. 조인 유형을 다음과 같이 그대로 둡니다. 안의. 다음과 같아야 합니다.

  1. 왼쪽 메뉴에서 저장 및 닫기.
  2. 왼쪽 메뉴에서 데이터 세트 만들기. 데이터세트에 이름을 지정합니다.
  3. 데이터 흐름으로 이동하면 다음이 표시됩니다.
  4. 대출 데이터를 빠르게 탐색하려면 다음을 선택하세요. 데이터 인사이트 얻기 선택하고 loan_status 타겟 컬럼 및 분류 문제 유형.

생성 된 데이터 품질 및 통찰력 보고서 주요 통계, 시각화 및 기능 중요도 분석을 제공합니다.

  1. 데이터 품질 문제 및 불균형 클래스에 대한 경고를 검토하여 데이터세트를 이해하고 개선하세요.

이 사용 사례의 데이터세트의 경우 "매우 낮은 빠른 모델 점수" 높은 우선순위 경고와 소수 클래스(청구 및 현재)에 대한 매우 낮은 모델 효율성을 예상해야 하며 이는 데이터 정리 및 균형 조정이 필요함을 나타냅니다. 인용하다 캔버스 문서 데이터 통찰력 보고서에 대해 자세히 알아보세요.


SageMaker Data Wrangler가 제공하는 300가지가 넘는 변환 기능이 내장된 SageMaker Canvas를 사용하면 대출 데이터를 신속하게 처리할 수 있습니다. 클릭하시면 됩니다 단계 추가을 클릭하고 올바른 변환을 찾아보거나 검색합니다. 이 데이터 세트의 경우 다음을 사용합니다. 드롭 누락 과 이상 값 처리 데이터를 정리한 후 적용 원-핫 인코딩,  텍스트 벡터화 ML용 기능을 생성합니다.

데이터 준비를 위한 채팅 요청을 일반 영어로 설명하여 직관적인 데이터 분석을 가능하게 하는 새로운 자연어 기능입니다. 예를 들어, 자연어구를 이용하여 대출 데이터에 대한 통계 및 특징 상관관계 분석을 얻을 수 있습니다. SageMaker Canvas는 대화식 상호 작용을 통해 작업을 이해하고 실행하여 데이터 준비를 한 단계 더 발전시킵니다.


우리는 사용할 수 있습니다 데이터 준비를 위한 채팅 대출 데이터의 균형을 맞추기 위한 내장 변환이 포함되어 있습니다.

  1. 먼저 다음 지침을 입력합니다. replace “charged off” and “current” in loan_status with “default”

데이터 준비를 위한 채팅 두 개의 소수 클래스를 하나로 병합하는 코드를 생성합니다. default 클래스입니다.

  1. 내장을 선택하세요 스 모트 기본 클래스에 대한 합성 데이터를 생성하는 변환 함수입니다.

이제 균형 잡힌 목표 열이 생겼습니다.

  1. 대출 데이터를 정리하고 처리한 후, 데이터 품질 및 통찰력 보고서 개선 사항을 검토합니다.

높은 우선순위 경고가 사라져 데이터 품질이 향상되었음을 나타냅니다. 모델 훈련을 위한 데이터 품질을 향상시키기 위해 필요에 따라 추가 변환을 추가할 수 있습니다.

데이터 처리 확장 및 자동화

데이터 준비를 자동화하려면 전체 워크플로를 분산 Spark 처리 작업으로 실행하거나 예약하여 전체 데이터 세트 또는 새로운 데이터 세트를 대규모로 처리할 수 있습니다.

  1. 데이터 흐름 내에서 Amazon S3 대상 노드를 추가합니다.
  2. 다음을 선택하여 SageMaker 처리 작업을 시작합니다. 직업 만들기.
  3. 처리 작업을 구성하고 선택합니다. 만들기, 샘플링 없이 수백 GB의 데이터에서 흐름을 실행할 수 있습니다.

데이터 흐름은 엔드투엔드 MLOps 파이프라인에 통합되어 ML 수명주기를 자동화할 수 있습니다. 데이터 흐름은 SageMaker 파이프라인의 데이터 처리 단계로 또는 SageMaker 추론 파이프라인을 배포하기 위해 SageMaker Studio 노트북에 공급될 수 있습니다. 이를 통해 데이터 준비부터 SageMaker 교육 및 호스팅까지의 흐름을 자동화할 수 있습니다.

SageMaker Canvas에서 모델 구축 및 배포

데이터 준비가 끝나면 최종 데이터 세트를 SageMaker Canvas로 원활하게 내보내 대출 지불 예측 모델을 구축, 교육 및 배포할 수 있습니다.

  1. 왼쪽 메뉴에서 모델 생성 데이터 흐름의 마지막 노드 또는 노드 창에 있습니다.

그러면 데이터세트가 내보내지고 안내형 모델 생성 워크플로가 시작됩니다.

  1. 내보낸 데이터 세트의 이름을 지정하고 선택합니다. 수출.
  2. 왼쪽 메뉴에서 모델 생성 알림에서.
  3. 모델 이름을 지정하고 선택하세요. 예측 분석, 선택 만들기.

그러면 모델 구축 페이지로 리디렉션됩니다.

  1. 대상 열과 모델 유형을 선택하여 SageMaker Canvas 모델 구축 경험을 계속한 다음 빠른 빌드 or 표준 빌드.

모델 구축 경험에 대해 자세히 알아보려면 다음을 참조하세요. 모델 구축.

훈련이 완료되면 모델을 사용하여 새 데이터를 예측하거나 배포할 수 있습니다. 인용하다 Amazon SageMaker Canvas에 내장된 ML 모델을 Amazon SageMaker 실시간 엔드포인트에 배포 SageMaker Canvas에서 모델을 배포하는 방법에 대해 자세히 알아보세요.

결론

이 게시물에서는 SageMaker Data Wrangler를 통해 대출 지불을 예측하기 위한 데이터를 준비하는 금융 데이터 전문가의 역할을 가정하여 SageMaker Canvas의 엔드투엔드 기능을 시연했습니다. 대화형 데이터 준비를 통해 대출 데이터를 신속하게 정리, 변환 및 분석하여 정보 기능을 엔지니어링할 수 있었습니다. 코딩 복잡성을 제거함으로써 SageMaker Canvas를 통해 신속하게 반복하여 고품질 교육 데이터 세트를 생성할 수 있었습니다. 이 가속화된 워크플로는 비즈니스에 영향을 미치는 고성능 ML 모델을 구축, 훈련 및 배포하는 것으로 직접 이어집니다. 포괄적인 데이터 준비와 데이터에서 통찰력에 이르는 통합 경험을 통해 SageMaker Canvas는 ML 결과를 개선할 수 있도록 지원합니다. 데이터에서 비즈니스 통찰력으로의 여정을 가속화하는 방법에 대한 자세한 내용은 다음을 참조하세요. SageMaker Canvas 몰입일AWS 사용자 가이드.


저자 소개

박사 마 창사 AWS의 AI/ML 전문가입니다. 그녀는 컴퓨터 과학 박사 학위, 교육 심리학 석사 학위, 데이터 과학 및 AI/ML 분야의 독립적 컨설팅 분야에서 수년간의 경험을 보유한 기술 전문가입니다. 그녀는 기계와 인간 지능에 대한 방법론적 접근 방식을 연구하는 데 열정을 갖고 있습니다. 직장 밖에서 그녀는 하이킹, 요리, 음식 사냥, 친구 및 가족과 함께 시간을 보내는 것을 좋아합니다.

아자이 고빈다람 AWS의 선임 솔루션 아키텍트입니다. 그는 AI/ML을 사용하여 복잡한 비즈니스 문제를 해결하는 전략적 고객과 협력합니다. 그의 경험은 보통 규모에서 대규모 AI/ML 애플리케이션 배포에 대한 기술 방향 및 설계 지원을 제공하는 데 있습니다. 그의 지식은 애플리케이션 아키텍처에서 빅 데이터, 분석 및 기계 학습에 이르기까지 다양합니다. 쉬는 동안 음악을 들으며 야외 활동을 하고 사랑하는 사람들과 시간을 보내는 것을 즐긴다.

흐엉 응우 엔 AWS의 수석 제품 관리자입니다. 그녀는 15년 동안 고객 중심 및 데이터 기반 제품을 구축한 경험을 바탕으로 SageMaker Canvas 및 SageMaker Data Wrangler를 위한 ML 데이터 준비를 이끌고 있습니다.

spot_img

최신 인텔리전스

spot_img