제퍼넷 로고

개발자 생산성 향상: Deloitte가 노코드/로우코드 기계 학습을 위해 Amazon SageMaker Canvas를 사용하는 방법 | 아마존 웹 서비스

시간

기계 학습(ML) 모델을 신속하게 구축하고 배포하는 능력은 오늘날의 데이터 중심 세계에서 점점 더 중요해지고 있습니다. 그러나 ML 모델을 구축하려면 상당한 시간과 노력, 전문 지식이 필요합니다. 데이터 수집 및 정리부터 기능 엔지니어링, 모델 구축, 조정, 배포에 이르기까지 ML 프로젝트는 개발자가 완료하는 데 수개월이 걸리는 경우가 많습니다. 그리고 숙련된 데이터 과학자를 찾기가 어려울 수 있습니다.

AWS의 로우코드 및 노코드 ML 서비스 제품군이 필수 도구가 되는 곳입니다. 몇 번의 클릭만으로 Amazon SageMaker 캔버스을 사용하면 코드를 작성할 필요 없이 ML의 강력한 기능을 활용할 수 있습니다.

심층적인 ML 경험을 갖춘 전략적 시스템 통합업체인 Deloitte는 AWS의 노코드 및 로우코드 ML 도구를 활용하여 Deloitte 클라이언트 및 내부 자산을 위한 ML 모델을 효율적으로 구축하고 배포합니다. 이러한 도구를 사용하면 Deloitte는 모델과 파이프라인을 직접 코딩할 필요 없이 ML 솔루션을 개발할 수 있습니다. 이를 통해 프로젝트 납품 일정을 단축하고 Deloitte가 더 많은 고객 작업을 수행할 수 있습니다.

Deloitte가 이러한 도구를 사용하는 몇 가지 구체적인 이유는 다음과 같습니다.

  • 프로그래머가 아닌 사람을 위한 접근성 – 코드가 없는 도구를 사용하면 프로그래머가 아닌 사람도 ML 모델을 구축할 수 있습니다. 도메인 전문 지식과 코딩 기술이 거의 없는 팀 구성원은 ML 모델을 개발할 수 있습니다.
  • 새로운 기술의 신속한 채택 – 즉시 사용 가능한 모델과 AutoML의 가용성과 지속적인 개선을 통해 사용자는 지속적으로 최고 수준의 기술을 사용할 수 있습니다.
  • 비용 효율적인 개발 – 코드 없는 도구는 ML 모델 개발에 필요한 비용과 시간을 줄여 고객이 더 쉽게 접근할 수 있도록 하여 더 높은 투자 수익을 달성하는 데 도움이 됩니다.

또한 이러한 도구는 더 빠른 작업 흐름을 위한 포괄적인 솔루션을 제공하여 다음을 가능하게 합니다.

  • 더 빠른 데이터 준비 – SageMaker Canvas에는 300개 이상의 기본 제공 변환과 데이터 준비를 가속화하고 모델 구축을 위한 데이터 준비를 완료할 수 있는 자연어 사용 기능이 있습니다.
  • 더 빠른 모델 구축 – SageMaker Canvas는 즉시 사용 가능한 모델을 제공합니다. 아마존 AutoML 단 몇 번의 클릭만으로 기업 데이터에 대한 맞춤형 모델을 구축할 수 있는 기술입니다. 이는 처음부터 코딩 모델에 비해 프로세스 속도를 높이는 데 도움이 됩니다.
  • 더 쉬운 배포 – SageMaker Canvas는 프로덕션에 즉시 사용 가능한 모델을 배포할 수 있는 기능을 제공합니다. 아마존 새그메이커 몇 번의 클릭만으로 엔드포인트에 등록하는 동시에 Amazon SageMaker 모델 레지스트리.

비슈베쉬와라 바사, Deloitte의 클라우드 CTO, 말한다 :

"SageMaker Canvas 및 SageMaker Data Wrangler와 같은 AWS의 코드 없는 ML 서비스를 통해 Deloitte Consulting은 새로운 효율성을 실현하여 클라이언트 대상 프로젝트와 내부 프로젝트 전반에 걸쳐 개발 속도와 배포 생산성을 30~40% 향상했습니다."

이 게시물에서는 고객의 대출 불이행 여부를 예측하기 위한 분류 모델을 구축하는 방법을 보여줌으로써 SageMaker Canvas를 사용하여 코드 없이 엔드투엔드 ML 모델을 구축하는 방법을 보여줍니다. 이 모델은 대출 불이행을 보다 정확하게 예측함으로써 금융 서비스 회사가 위험을 관리하고, 대출 가격을 적절하게 책정하고, 운영을 개선하고, 추가 서비스를 제공하고, 경쟁 우위를 확보하는 데 도움이 될 수 있습니다. 우리는 SageMaker Canvas가 대출 부도 예측을 위해 원시 데이터에서 배포된 이진 분류 모델로 빠르게 전환하는 데 어떻게 도움이 되는지 보여줍니다.

SageMaker Canvas는 다음을 기반으로 하는 포괄적인 데이터 준비 기능을 제공합니다. Amazon SageMaker 데이터 랭글러 SageMaker Canvas 작업 공간에서. 이를 통해 단일 플랫폼에서 데이터 준비부터 모델 구축 및 배포까지 표준 ML 워크플로의 모든 단계를 진행할 수 있습니다.

데이터 준비는 일반적으로 ML 워크플로에서 가장 시간 집약적인 단계입니다. 데이터 준비에 소요되는 시간을 줄이기 위해 SageMaker Canvas에서는 300개 이상의 기본 제공 변환을 사용하여 데이터를 준비할 수 있습니다. 대안적으로, 자연어 프롬프트를 작성할 수 있습니다, 예를 들어 "이상치인 c열의 행을 삭제"하고 이 데이터 준비 단계에 필요한 코드 조각이 제공됩니다. 그런 다음 몇 번의 클릭만으로 데이터 준비 워크플로우에 이를 추가할 수 있습니다. 이 게시물에서는 이를 사용하는 방법도 보여줍니다.

솔루션 개요

다음 다이어그램은 SageMaker 로우 코드 및 코드 없음 도구를 사용하는 대출 기본 분류 모델의 아키텍처를 설명합니다.

대출 연체 데이터에 대한 세부 정보가 포함된 데이터 세트로 시작합니다. 아마존 단순 스토리지 서비스 (Amazon S3)에서는 SageMaker Canvas를 사용하여 데이터에 대한 통찰력을 얻습니다. 그런 다음 범주형 기능 인코딩, 필요하지 않은 기능 삭제 등과 같은 변환을 적용하기 위해 기능 엔지니어링을 수행합니다. 다음으로 정리된 데이터를 Amazon S3에 다시 저장합니다. 우리는 정리된 데이터 세트를 사용하여 대출 불이행을 예측하기 위한 분류 모델을 만듭니다. 그런 다음 추론을 위한 프로덕션 준비 모델이 있습니다.

사전 조건

다음 사항을 확인하세요. 전제 조건 완료되었으며 Canvas 즉시 사용 가능한 모델 SageMaker 도메인을 설정할 때 옵션입니다. 이미 도메인을 설정한 경우 도메인 설정 수정 가서 캔버스 설정 를 사용하려면 Canvas 즉시 사용 가능한 모델 활성화 옵션. 추가적으로, 설정하고 SageMaker Canvas 애플리케이션 생성그런 다음 요청하고 활성화합니다. Anthropic Claude 모델 액세스 on 아마존 기반암.

데이터 세트

우리는 다음의 공개 데이터 세트를 사용합니다. 카글 금융대출에 관한 정보를 담고 있습니다. 데이터 세트의 각 행은 단일 대출을 나타내고 열은 각 거래에 대한 세부 정보를 제공합니다. 이 데이터세트를 다운로드하고 원하는 S3 버킷에 저장하세요. 다음 표에는 데이터 세트의 필드가 나열되어 있습니다.

열 이름 데이터 형식 상품 설명
Person_age 정수 대출을 받은 사람의 나이
Person_income 정수 차용인의 소득
Person_home_ownership 주택 소유 상태(소유 또는 임대)
Person_emp_length 소수 고용된 연수
Loan_intent 대출 사유(개인, 의료, 교육 등)
Loan_grade 대출등급(A~E)
Loan_int_rate 소수 이자율
Loan_amnt 정수 대출총액
Loan_status 정수 대상(기본값 여부)
Loan_percent_income 소수 소득 대비 대출 금액
Cb_person_default_on_file 정수 이전 기본값(있는 경우)
Cb_person_credit_history_length 신용 기록 기간

SageMaker Canvas로 데이터 준비 단순화

데이터 준비에는 ML 프로젝트 노력의 최대 80%가 소요될 수 있습니다.. 적절한 데이터 준비는 더 나은 모델 성능과 더 정확한 예측으로 이어집니다. SageMaker Canvas를 사용하면 SQL 또는 Python 코드를 작성하지 않고도 대화형 데이터 탐색, 변환 및 준비가 가능합니다.

데이터를 준비하려면 다음 단계를 완료하세요.

  1. SageMaker Canvas 콘솔에서 다음을 선택합니다. 데이터 준비 탐색 창에서
  2. 만들기 메뉴, 선택 문서.
  3. 럭셔리 데이터 세트 이름, 데이터 세트 이름을 입력합니다.
  4. 왼쪽 메뉴에서 만들기.
  5. Amazon S3를 데이터 소스로 선택하고 이를 데이터세트에 연결합니다.
  6. 데이터세트가 로드된 후 해당 데이터세트를 사용하여 데이터 흐름을 만듭니다.
  7. 분석 탭으로 전환하고 데이터 품질 및 통찰력 보고서.

이는 입력 데이터 세트의 품질을 분석하는 데 권장되는 단계입니다. 이 보고서의 출력은 데이터 왜곡, 데이터 중복, 누락된 값 등과 같은 즉각적인 ML 기반 통찰력을 생성합니다. 다음 스크린샷은 대출 데이터 세트에 대해 생성된 보고서의 샘플을 보여줍니다.

SageMaker Canvas는 사용자를 대신하여 이러한 통찰력을 생성함으로써 데이터 준비 단계에서 수정이 필요한 데이터 문제 세트를 제공합니다. SageMaker Canvas에서 식별된 상위 두 가지 문제를 선택하려면 범주형 기능을 인코딩하고 중복 행을 제거하여 모델 품질을 높여야 합니다. SageMaker Canvas를 사용하면 시각적 워크플로에서 이 두 가지를 모두 수행할 수 있습니다.

  1. 먼저 원-핫 인코딩을 수행합니다. loan_intent, loan_gradeperson_home_ownership
  2. 드롭 할 수 있습니다 cb_person_cred_history_length 데이터 품질 및 통찰력 보고서에 표시된 것처럼 해당 열의 예측력이 가장 낮기 때문입니다.

    SageMaker Canvas는 최근에 데이터와 채팅 옵션. 이 기능은 기초 모델의 강력한 기능을 사용하여 자연어 쿼리를 해석하고 Python 기반 코드를 생성하여 기능 엔지니어링 변환을 적용합니다. 이 기능은 Amazon Bedrock에서 제공되며 데이터가 환경을 떠나지 않도록 VPC에서 완전히 실행되도록 구성할 수 있습니다.
  3. 이 기능을 사용하여 중복 행을 제거하려면 옆에 있는 더하기 기호를 선택합니다. 열 삭제 변환한 다음 선택 데이터와 채팅.
  4. 자연어로 쿼리를 입력합니다(예: "데이터세트에서 중복 행 제거").
  5. 생성된 변환을 검토하고 선택합니다. 단계에 추가 흐름에 변환을 추가합니다.
  6. 마지막으로 이러한 변환의 출력을 Amazon S3로 내보내거나 선택적으로 내보냅니다. Amazon SageMaker 기능 스토어 여러 프로젝트에서 이러한 기능을 사용합니다.

대규모 데이터 세트에 대한 워크플로를 확장하기 위해 데이터 세트에 대한 Amazon S3 대상을 생성하는 또 다른 단계를 추가할 수도 있습니다. 다음 다이어그램은 시각적 변환을 추가한 후의 SageMaker Canvas 데이터 흐름을 보여줍니다.

SageMaker Canvas의 시각적 워크플로를 사용하여 전체 데이터 처리 및 기능 엔지니어링 단계를 완료했습니다. 이를 통해 데이터 엔지니어가 모델 개발을 위해 데이터를 정리하고 준비하는 데 소요되는 시간을 몇 주에서 며칠로 줄이는 데 도움이 됩니다. 다음 단계는 ML 모델을 구축하는 것입니다.

SageMaker Canvas를 사용하여 모델 구축

Amazon SageMaker Canvas는 이 이진 분류 모델을 구축, 분석, 테스트 및 배포하기 위한 코드 없는 엔드 투 엔드 워크플로를 제공합니다. 다음 단계를 완료하세요.

  1. SageMaker Canvas에서 데이터세트를 생성합니다.
  2. 데이터를 내보내는 데 사용된 S3 위치 또는 SageMaker Canvas 작업의 대상에 있는 S3 위치를 지정합니다.

    이제 모델을 만들 준비가 되었습니다.
  3. 왼쪽 메뉴에서 모델 탐색 창에서 선택하고 새 모델.
  4. 모델 이름을 지정하고 선택하세요. 예측 분석 모델 유형으로.
  5. 이전 단계에서 생성된 데이터세트를 선택합니다.

    다음 단계는 모델 유형을 구성하는 것입니다.
  6. 대상 열을 선택하면 모델 유형이 자동으로 다음과 같이 설정됩니다. 2 카테고리 예측.
  7. 빌드 유형을 선택하고, 표준 빌드 or 빠른 빌드.

    SageMaker Canvas는 모델 구축을 시작하자마자 예상 구축 시간을 표시합니다. 표준 빌드는 일반적으로 2~4시간 정도 소요됩니다. 더 작은 데이터 세트에는 빠른 빌드 옵션을 사용할 수 있으며 이 작업은 2~15분 밖에 걸리지 않습니다. 이 특정 데이터세트의 경우 모델 구축을 완료하는 데 약 45분이 소요됩니다. SageMaker Canvas는 빌드 프로세스의 진행 상황을 지속적으로 알려줍니다.
  8. 모델이 구축된 후 모델 성능을 확인할 수 있습니다.

    SageMaker Canvas는 모델 유형에 따라 정확도, 정밀도, F1 점수와 같은 다양한 지표를 제공합니다. 다음 스크린샷은 이 이진 분류 모델의 정확도와 기타 몇 가지 고급 측정항목을 보여줍니다.
  9. 다음 단계는 테스트 예측을 하는 것입니다.
    SageMaker Canvas를 사용하면 여러 입력 또는 단일 예측에 대한 일괄 예측을 수행하여 모델 품질을 빠르게 확인할 수 있습니다. 다음 스크린샷은 샘플 추론을 보여줍니다.
  10. 마지막 단계는 훈련된 모델을 배포하는 것입니다.
    SageMaker Canvas가 SageMaker 엔드포인트에 모델을 배포하면 이제 추론할 수 있는 프로덕션 모델이 준비됩니다. 다음 스크린샷은 배포된 엔드포인트를 보여줍니다.

모델이 배포된 후 AWS SDK를 통해 호출하거나 AWS 명령 줄 인터페이스 (AWS CLI) 또는 선택한 애플리케이션에 API 호출을 수행하여 잠재적인 차용자의 위험을 확실하게 예측할 수 있습니다. 모델 테스트에 대한 자세한 내용은 다음을 참조하세요. 실시간 엔드포인트 호출.

정리

추가요금이 발생하지 않도록, SageMaker 캔버스에서 로그아웃 or SageMaker 도메인 삭제 그것이 만들어졌습니다. 추가적으로, SageMaker 모델 엔드포인트 삭제Amazon S3에 업로드된 데이터 세트 삭제.

결론

코드 없는 ML은 개발을 가속화하고 배포를 단순화하며 프로그래밍 기술이 필요하지 않으며 표준화를 강화하고 비용을 절감합니다. 이러한 이점으로 인해 Deloitte는 ML 서비스 제공을 개선하기 위해 코드 없는 ML을 매력적으로 만들었고 ML 모델 구축 일정을 30~40% 단축했습니다.

Deloitte는 전 세계적으로 17,000명 이상의 인증된 AWS 실무자를 보유한 전략적 글로벌 시스템 통합업체입니다. 다음과 같은 AWS 컴피턴시 프로그램 참여를 통해 지속적으로 기준을 높이고 있습니다. 기계 학습을 포함한 25개 역량. 딜로이트와 연결 기업에 AWS 노코드 및 로우코드 솔루션을 사용하기 시작하세요.


저자 소개

치다 사다야판 Deloitte의 클라우드 AI/머신러닝 업무를 이끌고 있습니다. 그는 강력한 사고 리더십 경험을 업무에 활용하고 임원 이해관계자가 AI/ML을 사용하여 산업 전반에 걸쳐 성능 개선 및 현대화 목표를 달성하도록 지원하는 데 성공했습니다. Chida는 연쇄 기술 기업가이자 스타트업 및 개발자 생태계의 열렬한 커뮤니티 구축자입니다.

쿨데프 싱20년 이상의 기술 경력을 보유한 AWS의 주요 글로벌 AI/ML 리더인 그는 영업 및 기업가 정신 전문 지식과 AI, ML 및 사이버 보안에 대한 깊은 이해를 능숙하게 결합합니다. 그는 생성 AI 및 GSI에 중점을 두고 다양한 산업 전반에 걸쳐 전략적 글로벌 파트너십을 구축하고 혁신적인 솔루션과 전략을 추진하는 데 탁월합니다.

카시 무투 그는 텍사스주 휴스턴에 위치한 AWS에서 데이터 및 AI/ML을 전문으로 하는 수석 파트너 솔루션 설계자입니다. 그는 파트너와 고객이 클라우드 데이터 여정을 가속화하도록 돕는 데 열정을 쏟고 있습니다. 그는 이 분야의 신뢰할 수 있는 조언자이며 클라우드에서 확장 가능하고 탄력적이며 성능이 뛰어난 워크로드를 설계하고 구축한 풍부한 경험을 보유하고 있습니다. 업무 외에는 가족과 함께 시간을 보내는 것을 즐깁니다.

spot_img

최신 인텔리전스

spot_img