제퍼넷 로고

Amazon DocumentDB를 사용하여 Amazon SageMaker Canvas에서 코드 없는 기계 학습 솔루션 구축 | 아마존 웹 서비스

시간

출시를 발표하게 되어 기쁩니다. Amazon DocumentDB(MongoDB 호환성 포함) 통합 Amazon SageMaker 캔버스, Amazon DocumentDB 고객은 코드를 작성하지 않고도 생성 AI 및 기계 학습(ML) 솔루션을 구축하고 사용할 수 있습니다. Amazon DocumentDB는 인프라를 관리하지 않고도 거의 모든 규모에서 중요한 문서 워크로드를 간단하고 비용 효율적으로 운영할 수 있게 해주는 완전 관리형 기본 JSON 문서 데이터베이스입니다. Amazon SageMaker Canvas는 기초 모델을 포함하여 즉시 사용 가능한 모델과 데이터를 준비하고 사용자 지정 모델을 구축 및 배포하는 기능을 제공하는 코드 없는 ML 작업 공간입니다.

이 게시물에서는 Amazon DocumentDB에 저장된 데이터를 SageMaker Canvas로 가져오고 해당 데이터를 사용하여 예측 분석을 위한 ML 모델을 구축하는 방법에 대해 설명합니다. 데이터 파이프라인을 생성하고 유지 관리하지 않고도 Amazon DocumentDB에 저장된 구조화되지 않은 데이터를 사용하여 ML 모델을 강화할 수 있습니다.

솔루션 개요

음식 배달 회사의 비즈니스 분석가 역할을 가정해 보겠습니다. 모바일 앱은 확장성과 유연한 스키마 기능 덕분에 레스토랑에 대한 정보를 Amazon DocumentDB에 저장합니다. 이 데이터에 대한 통찰력을 수집하고 ML 모델을 구축하여 새로운 레스토랑이 어떻게 평가될지 예측하고 싶지만 구조화되지 않은 데이터에 대한 분석을 수행하는 것은 어렵습니다. 이러한 목표를 달성하려면 데이터 엔지니어링 및 데이터 과학 팀에 의존해야 하기 때문에 병목 현상이 발생합니다.

이 새로운 통합은 Amazon DocumentDB 데이터를 SageMaker Canvas로 간단하게 가져오고 즉시 ML용 데이터 준비 및 분석을 시작함으로써 이러한 문제를 해결합니다. 또한 SageMaker Canvas는 ML 전문 지식에 대한 의존성을 제거하여 고품질 모델을 구축하고 예측을 생성합니다.

다음 단계에서는 Amazon DocumentDB 데이터를 사용하여 SageMaker Canvas에서 ML 모델을 구축하는 방법을 보여줍니다.

  1. SageMaker Canvas에서 Amazon DocumentDB 커넥터를 생성합니다.
  2. 생성 AI를 사용하여 데이터를 분석합니다.
  3. 머신러닝을 위한 데이터를 준비합니다.
  4. 모델을 구축하고 예측을 생성합니다.

사전 조건

이 솔루션을 구현하려면 다음 사전 요구 사항을 완료하세요.

  1. 다음을 통해 AWS 클라우드 관리자 액세스 권한을 갖습니다. AWS 자격 증명 및 액세스 관리 (나는) 사용자 통합을 완료하는 데 필요한 권한이 있습니다.
  2. 다음을 사용하여 환경 설정을 완료합니다. AWS 클라우드 포메이션 다음 옵션 중 하나를 통해:
    1. CloudFormation 템플릿을 새 VPC에 배포 – 이 옵션은 VPC, 프라이빗 서브넷, 보안 그룹, IAM 실행 역할, 아마존 클라우드9, 필수 VPC 엔드포인트SageMaker 도메인. 그런 다음 Amazon DocumentDB를 이 새 VPC에 배포합니다. 다운로드 이 템플릿 또는 다음을 선택하여 CloudFormation 스택을 빠르게 실행하세요. 발사 스택:
      CloudFormation 스택 실행
    2. CloudFormation 템플릿을 기존 VPC에 배포 – 이 옵션은 프라이빗 서브넷이 있는 기존 VPC에 필수 VPC 엔드포인트, IAM 실행 역할 및 SageMaker 도메인을 생성합니다. 다운로드 이 템플릿 또는 다음을 선택하여 CloudFormation 스택을 빠르게 실행하세요. 발사 스택:
      CloudFormation 스택 실행

새 SageMaker 도메인을 생성하는 경우 Amazon DocumentDB에 커넥터를 추가하려면 인터넷 액세스 없이 프라이빗 VPC에 있도록 도메인을 구성해야 합니다. 자세한 내용은 다음을 참조하세요. 인터넷 액세스 없이 VPC에서 Amazon SageMaker 캔버스 구성.

  1. 에 따라 지도 시간 샘플 레스토랑 데이터를 Amazon DocumentDB에 로드합니다.
  2. Amazon Bedrock 및 그 안에 있는 Anthropic Claude 모델에 대한 액세스를 추가하세요. 자세한 내용은 다음을 참조하세요. 모델 액세스 추가.

SageMaker Canvas에서 Amazon DocumentDB 커넥터 생성

SageMaker 도메인을 생성한 후 다음 단계를 완료하십시오.

  1. Amazon DocumentDB 콘솔에서 다음을 선택합니다. 코드 없는 머신러닝 탐색 창에서
  2. $XNUMX Million 미만 도메인 및 프로필 선택¸ SageMaker 도메인과 사용자 프로필을 선택합니다.
  3. 왼쪽 메뉴에서 캔버스 실행 새 탭에서 SageMaker Canvas를 시작합니다.

SageMaker Canvas 로드가 완료되면 데이터 흐름 탭.

  1. 왼쪽 메뉴에서 만들기 새로운 데이터 흐름을 생성합니다.
  2. 데이터 흐름의 이름을 입력하고 선택합니다. 만들기.
  3. 다음을 선택하여 새 Amazon DocumentDB 연결을 추가합니다. 데이터 가져 오기다음을 선택 표의 for 데이터 세트 유형.
  4. 데이터 가져 오기 페이지 데이터 소스선택한다. 문서DB연결 추가.
  5. 데모와 같은 연결 이름을 입력하고 원하는 Amazon DocumentDB 클러스터를 선택합니다.

SageMaker 캔버스는 SageMaker 도메인과 동일한 VPC에 있는 클러스터로 드롭다운 메뉴를 미리 채웁니다.

  1. 사용자 이름, 비밀번호, 데이터베이스 이름을 입력합니다.
  2. 마지막으로 읽기 기본 설정을 선택하세요.

기본 인스턴스의 성능을 보호하기 위해 SageMaker Canvas는 기본적으로 중-고등부즉, 보조 인스턴스에서만 읽습니다. 읽기 기본 설정이 다음인 경우 XNUMX차 선호, SageMaker Canvas는 사용 가능한 보조 인스턴스에서 읽지만, 보조 인스턴스를 사용할 수 없는 경우 기본 인스턴스에서 읽습니다. Amazon DocumentDB 연결을 구성하는 방법에 대한 자세한 내용은 다음을 참조하세요. AWS에 저장된 데이터베이스에 연결.

  1. 왼쪽 메뉴에서 연결 추가.

연결이 성공하면 Amazon DocumentDB 데이터베이스의 컬렉션이 테이블로 표시됩니다.

  1. 선택한 테이블을 빈 캔버스로 드래그합니다. 이 게시물에서는 레스토랑 데이터를 추가합니다.

처음 100개 행은 미리보기로 표시됩니다.

  1. 데이터 분석 및 준비를 시작하려면 다음을 선택하세요. 데이터 가져 오기.
  2. 데이터 세트 이름을 입력하고 데이터 가져 오기.

생성 AI를 활용한 데이터 분석

다음으로, 데이터에 대한 통찰력을 얻고 패턴을 찾고 싶습니다. SageMaker Canvas는 데이터를 분석하고 준비하기 위한 자연어 인터페이스를 제공합니다. 때 Data 탭이 로드되면 다음 단계에 따라 데이터 채팅을 시작할 수 있습니다.

  1. 왼쪽 메뉴에서 데이터 준비를 위한 채팅.
  2. 다음 스크린샷에 표시된 샘플과 같은 질문을 통해 데이터에 대한 통찰력을 수집하세요.

자연어를 사용하여 데이터를 탐색하고 준비하는 방법에 대해 자세히 알아보려면 다음을 참조하세요. Amazon SageMaker Canvas의 새로운 기능으로 자연어를 사용하여 데이터를 탐색하고 준비합니다..

데이터 품질을 자동으로 평가하고 이상을 감지하는 SageMaker Canvas 데이터 품질 및 통찰력 보고서를 사용하여 데이터 품질에 대해 더 깊이 이해해 보겠습니다.

  1. 복수 탭에서 데이터 품질 및 통찰력 보고서.
  2. 왼쪽 메뉴에서 rating 대상 열로 리그레션 문제 유형으로 선택한 다음 만들기.

이를 통해 모델 교육을 시뮬레이션하고 기계 학습을 위한 데이터를 개선할 수 있는 방법에 대한 통찰력을 제공합니다. 전체 보고서는 몇 분 안에 생성됩니다.

보고서에 따르면 대상 행 중 2.47%에 누락된 값이 있는 것으로 나타났습니다. 이 문제는 다음 단계에서 해결하겠습니다. 또한, 분석에 따르면 address line 2, nametype_of_food 특징은 데이터에서 가장 예측력이 높습니다. 이는 위치, 요리 등 기본적인 레스토랑 정보가 평점에 큰 영향을 미칠 수 있음을 나타냅니다.

머신러닝을 위한 데이터 준비

SageMaker Canvas는 가져온 데이터를 준비하기 위해 300개 이상의 기본 제공 변환을 제공합니다. SageMaker Canvas의 변환 기능에 대한 자세한 내용은 다음을 참조하십시오. 고급 변환으로 데이터 준비. ML 모델 학습을 위해 데이터를 준비하기 위해 몇 가지 변환을 추가해 보겠습니다.

  1. 다시 데이터 흐름 페이지 상단에서 데이터 흐름의 이름을 선택하여 페이지를 엽니다.
  2. 옆에 있는 더하기 기호를 선택합니다. 자료형 선택하고 변형 추가.
  3. 왼쪽 메뉴에서 단계 추가.
  4. 이름을 바꾸자 address line 2 열에 cities.
    1. 왼쪽 메뉴에서 열 관리.
    2. 왼쪽 메뉴에서 열 이름 변경 for 변환.
    3. 왼쪽 메뉴에서 address line 2 for 입력 열, 입력 cities for 새 이름, 선택 추가.
  5. 또한 불필요한 열을 삭제해 보겠습니다.
    1. 새로운 변환을 추가합니다.
    2. 럭셔리 변환선택한다. 열 삭제.
    3. 럭셔리 삭제할 열선택한다. URLrestaurant_id.
    4. 왼쪽 메뉴에서 추가.
      [
  6. 당사의 rating 특성 열에는 일부 누락된 값이 있으므로 이 열의 평균 값으로 해당 행을 채워 보겠습니다.
    1. 새로운 변환을 추가합니다.
    2. 럭셔리 변환선택한다. 돌리다.
    3. 럭셔리 컬럼 유형선택한다. 숫자.
    4. 럭셔리 입력 열을 선택하십시오 rating 열입니다.
    5. 럭셔리 전가 전략선택한다. Mean.
    6. 럭셔리 출력 열, 입력 rating_avg_filled.
    7. 왼쪽 메뉴에서 추가.
  7. 우리는 rating 값이 채워진 새 열이 있기 때문입니다.
  8. 때문에 type_of_food 본질적으로 범주형이므로 수치적으로 인코딩하고 싶을 것입니다. 원-핫 인코딩 기술을 사용하여 이 기능을 인코딩해 보겠습니다.
    1. 새로운 변환을 추가합니다.
    2. 럭셔리 변환선택한다. 원-핫 인코딩.
    3. 입력 열에 대해 다음을 선택합니다. type_of_food.
    4. 럭셔리 잘못된 처리 전략¸ 선택 유지.
    5. 럭셔리 출력 스타일¸ 선택 .
    6. 럭셔리 출력 열, 입력 encoded.
    7. 왼쪽 메뉴에서 추가.

모델 구축 및 예측 생성

이제 데이터를 변환했으므로 숫자 ML 모델을 학습하여 레스토랑 평점을 예측해 보겠습니다.

  1. 왼쪽 메뉴에서 모델 생성.
  2. 럭셔리 데이터 세트 이름에서 데이터세트 내보내기 이름을 입력합니다.
  3. 왼쪽 메뉴에서 수출 변환된 데이터가 내보내질 때까지 기다립니다.
  4. 선택 모델 생성 링크는 페이지 왼쪽 하단에 있습니다.

페이지 왼쪽의 데이터 랭글러 기능에서 데이터세트를 선택할 수도 있습니다.

  1. 모델명을 입력하세요.
  2. 왼쪽 메뉴에서 예측 분석다음을 선택 만들기.
  3. 왼쪽 메뉴에서 rating_avg_filled 대상 열로

SageMaker Canvas는 적합한 모델 유형을 자동으로 선택합니다.

  1. 왼쪽 메뉴에서 모델 미리보기 데이터 품질 문제가 없는지 확인합니다.
  2. 왼쪽 메뉴에서 빠른 빌드 모델을 구축합니다.

모델 생성을 완료하는 데 약 2~15분이 소요됩니다.

모델 학습이 완료된 후 모델 상태를 볼 수 있습니다. 우리 모델의 RSME는 0.422입니다. 이는 모델이 종종 실제 가치의 +/- 0.422 내에서 레스토랑의 평점을 예측한다는 것을 의미하며, 이는 평점 척도 1~6에 대한 확실한 근사치입니다.

  1. 마지막으로 다음으로 이동하여 샘플 예측을 생성할 수 있습니다. 예측 탭.

정리

향후 요금이 발생하지 않도록 하려면 이 게시물을 따르는 동안 생성한 리소스를 삭제하세요. SageMaker Canvas는 세션 기간 동안 요금을 청구하므로 SageMaker Canvas를 사용하지 않을 때는 로그아웃하는 것이 좋습니다. 인용하다 Amazon SageMaker 캔버스에서 로그아웃 자세한 내용은.

결론

이 게시물에서는 Amazon DocumentDB에 저장된 데이터로 생성 AI 및 ML을 위해 SageMaker Canvas를 사용하는 방법에 대해 논의했습니다. 이 예에서는 분석가가 샘플 레스토랑 데이터 세트를 사용하여 고품질 ML 모델을 신속하게 구축할 수 있는 방법을 보여주었습니다.

Amazon DocumentDB에서 데이터를 가져오는 것부터 SageMaker Canvas에서 ML 모델을 구축하는 것까지 솔루션을 구현하는 단계를 보여주었습니다. 전체 프로세스는 코드 한 줄 작성 없이 시각적 인터페이스를 통해 완료되었습니다.

로우 코드/노 코드 ML 여정을 시작하려면 다음을 참조하십시오. Amazon SageMaker 캔버스.


저자 소개

아델레케 코커 AWS의 글로벌 솔루션 아키텍트입니다. 그는 전 세계 고객과 협력하여 AWS에서 프로덕션 워크로드를 대규모로 배포하는 데 지침과 기술 지원을 제공합니다. 여가 시간에는 학습, 독서, 게임, 스포츠 경기 관람을 즐깁니다.

구루라즈 S 바야리 AWS의 수석 DocumentDB 전문가 솔루션 아키텍트입니다. 그는 고객이 Amazon의 특별히 구축된 데이터베이스를 채택하도록 돕는 것을 좋아합니다. 그는 고객이 NoSQL 및/또는 관계형 데이터베이스를 기반으로 하는 인터넷 규모와 고성능 워크로드를 설계, 평가 및 최적화하도록 돕습니다.

팀 푸사테리 그는 AWS의 수석 제품 관리자로 Amazon SageMaker Canvas에서 일하고 있습니다. 그의 목표는 고객이 AI/ML에서 신속하게 가치를 도출하도록 돕는 것입니다. 업무 외에 그는 야외 활동, 기타 연주, 라이브 음악 감상, 가족 및 친구들과 시간 보내기를 좋아합니다.

프라틱 다스 AWS의 제품 관리자입니다. 그는 클라우드에서 탄력적인 워크로드와 강력한 데이터 기반을 구축하려는 고객과 함께 일하는 것을 즐깁니다. 그는 현대화, 분석 및 데이터 변환 이니셔티브에 관해 기업과 협력하여 전문 지식을 제공합니다.

바르마 고투무칼라 댈러스 포트워스에 본사를 둔 AWS의 수석 데이터베이스 전문가 솔루션 아키텍트입니다. Varma는 데이터베이스 전략에 대해 고객과 협력하고 AWS 목적으로 구축된 데이터베이스를 사용하여 워크로드를 설계합니다. AWS에 합류하기 전에 그는 지난 22년 동안 관계형 데이터베이스, NOSQL 데이터베이스 및 여러 프로그래밍 언어를 다루며 광범위하게 작업했습니다.

spot_img

VC 카페

라이프사이VC

최신 인텔리전스

VC 카페

라이프사이VC

spot_img