제퍼넷 로고

Amazon SageMaker Studio 내에서 유휴 리소스를 자동으로 종료하여 비용 절감

시간

아마존 세이지 메이커 스튜디오 모든 머신 러닝 (ML) 개발 단계를 수행 할 수있는 통합 웹 기반 시각적 인터페이스를 제공하여 데이터 과학 팀의 생산성을 최대 10 배까지 높일 수 있습니다. Studio는 모델을 구축, 교육 및 배포하는 데 필요한 각 단계에 대한 완전한 액세스, 제어 및 가시성을 제공합니다. Studio 노트북은 컴퓨팅 인스턴스와 파일 스토리지를 미리 설정할 필요가 없기 때문에 빠르게 시작할 수있는 협업 노트북입니다. 아마존 세이지 메이커 인프라 관리의 무거운 작업을 추상화하는 기능을 제공하고 다양한 기능과 종량제를 사용하여 대규모 ML 활동에 필요한 민첩성과 확장 성을 제공하는 완전 관리 형 서비스입니다. 가격 모델.

이 게시물에서는 다음을 수행하는 방법을 보여줍니다.

  • 수동 및 자동 설치가 가능한 자동 종료 Jupyter 확장 프로그램을 사용하여 Studio 내에서 비용을 발생시키는 유휴 리소스를 감지하고 중지합니다.
  • 이벤트 알림을 활성화하여 자동 종료 확장 프로그램을 설치하지 않은 Studio 도메인 내 사용자 프로필을 추적합니다.
  • 설치된 자동 종료 확장 프로그램을 사용하여 Amazon SageMaker 데이터 랭글러 예상보다 큰 비용이 발생할 수있는 인스턴스를 자동으로 종료하여 비용

Studio 구성 요소

Studio에서 실행중인 노트북은 컴퓨팅 인프라 크기 조정을 분리하기 위해 JupyterServer UI와 별도로 컨테이너화됩니다. Studio 노트북은 다음에 의해 정의 된 환경에서 실행됩니다.

  • 인스턴스 유형 – 가격 책정 비율을 결정하는 기본 하드웨어 구성. 여기에는 프로세서 수 및 유형 (vCPU 및 GPU), 메모리 양 및 유형이 포함됩니다.
  • SageMaker 이미지 – 노트북 커널을 호스팅하는 호환되는 컨테이너 이미지 (SageMaker 제공 또는 사용자 지정). 이미지는 기본 제공 Python 3 (데이터 과학) 커널과 같이 제공하는 커널 사양을 정의합니다.
  • SageMaker 커널 게이트웨이 앱 – 특정 인스턴스 유형에서 컨테이너 이미지의 실행중인 인스턴스. 여러 앱이 실행중인 인스턴스를 공유 할 수 있습니다.
  • 커널 세션 실행 – 노트북에 포함 된 코드를 검사하고 실행하는 프로세스입니다. 동일한 사양 및 인스턴스 유형의 여러 열린 노트북 (커널)이 동일한 앱에서 열립니다.

Studio UI는 별도의 유형 앱으로 실행됩니다. JupyterServer 대신 KernelGateway, Studio UI 내에서 열린 노트북을 다른 커널 또는 인스턴스 유형으로 전환 할 수 있습니다. 노트북 커널이 실행되는 방법에 대한 자세한 내용은 KernelGateway 앱, 사용자 및 Studio 도메인은 Amazon SageMaker Studio 노트북 사용.

Studio 결제

Studio 사용에 대한 추가 비용은 없습니다. Studio 노트북, 대화 형 셸, 콘솔 및 터미널을 실행하는 데 발생하는 비용은 Studio 인스턴스 유형 사용량을 기준으로합니다. 요금 예제와 함께 청구에 대한 자세한 내용은 Amazon SageMaker 요금.

Studio 내에서 Studio 노트북, 대화 형 셸 또는 이미지 터미널을 실행할 때 커널과 인스턴스 유형을 선택해야합니다. 이러한 리소스는 UI에서 선택한 유형을 기반으로 Studio 인스턴스를 사용하여 시작됩니다. 해당 유형의 인스턴스가 이전에 시작되었고 사용 가능한 경우 리소스가 해당 인스턴스에서 실행됩니다. CPU 기반 이미지의 경우 기본 인스턴스 유형은 ml.t3.medium. GPU 기반 이미지의 경우 기본 인스턴스 유형은 ml.g4dn.xlarge. 발생하는 비용은 인스턴스 유형을 기반으로하며 각 인스턴스에 대해 별도로 청구됩니다. 측정은 인스턴스가 생성 될 때 시작되고 인스턴스의 모든 앱이 종료되거나 인스턴스가 종료 될 때 종료됩니다.

요금 발생을 중지하려면 인스턴스를 종료합니다. 인스턴스에서 실행중인 노트북을 종료했지만 인스턴스를 종료하지 않은 경우에도 요금이 부과됩니다. 동일한 인스턴스 유형에서 여러 노트북을 열면 노트북은 다른 커널을 사용하더라도 동일한 인스턴스에서 실행됩니다. 하나의 인스턴스가 실행되는 시간에 대해서만 요금이 청구됩니다. 당신은 할 수 있습니다 인스턴스 유형 변경 노트북을 연 후 노트북 내에서 노트북, 터미널, 커널, 앱 및 인스턴스를 포함한 개별 리소스를 종료합니다. 이러한 범주 중 하나에있는 모든 리소스를 동시에 종료 할 수도 있습니다. 노트북을 종료하면 노트북에 저장되지 않은 정보가 손실됩니다. 노트북은 삭제되지 않습니다.

Studio에서 열려있는 노트북을 종료 할 수 있습니다. 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴 또는 터미널 및 커널 실행 창유리. 그만큼 터미널 및 커널 실행 창은 XNUMX 개의 섹션으로 구성됩니다. 각 섹션에는 해당 유형의 모든 리소스가 나열됩니다. 각 리소스를 개별적으로 종료하거나 섹션의 모든 리소스를 동시에 종료 할 수 있습니다. 섹션의 모든 리소스를 종료하도록 선택하면 다음이 발생합니다.

  • 인스턴스 실행 / 앱 실행 – 모든 인스턴스, 앱, 노트북, 커널 세션, 데이터 랭글러 세션, 콘솔 또는 셸 및 이미지 터미널이 종료됩니다. 시스템 터미널이 종료되지 않습니다. 모든 비용 발생을 중지하려면이 옵션을 선택하십시오.
  • 커널 세션 – 모든 커널, 노트북, 콘솔 또는 셸이 종료됩니다.
  • 터미널 세션 – 모든 이미지 터미널과 시스템 터미널이 종료되었습니다.

리소스를 종료하려면 왼쪽 사이드 바에서 터미널 및 커널 실행 상. 특정 리소스를 종료하려면 출력 리소스와 같은 행에있는 아이콘.

실행중인 인스턴스의 경우 종료 할 모든 리소스가 확인 대화 상자에 나열됩니다. 실행중인 앱의 경우 확인 대화 상자가 표시됩니다. 고르다 모두 종료 계속하려면. 커널 세션 또는 터미널 세션에 대한 확인 대화 상자가 표시되지 않습니다. 섹션의 모든 리소스를 종료하려면 X 섹션 레이블 오른쪽에있는 아이콘. 확인 대화 상자가 표시됩니다. 고르다 모두 종료 계속하려면.

JupyterLab 확장으로 유휴 커널을 자동으로 종료

사용자가 더 이상 사용하지 않는 리소스를 종료하는 대신 Studio 자동 종료 확장 프로그램을 사용하여 유휴 리소스를 자동으로 감지하고 종료하여 비용을 절감 할 수 있습니다. JupyterLab 확장 노트북 환경의 기본 기능을 확장하는 간단한 추가 기능입니다. 이 확장 프로그램은 지정된 시간 동안 유휴 상태 일 때 Studio 내에서 실행중인 커널, 앱 및 인스턴스를 자동으로 종료합니다. UI를 통해 유휴 시간 임계 값 (분)을 시각적으로 구성 할 수 있습니다. 커널이 충분히 오랫동안 유휴 상태를 유지하면 확장 프로그램이 커널을 자동으로 끕니다. 확장을 다운로드하고 설치하는 방법에 대한 지침은 GitHub 레포.

다음을 사용하는 경우 JupyterServer를 시작하는 동안 확장을 자동으로 설치할 수 있습니다. AWS 자격 증명 및 액세스 관리 (IAM) 인증을 사용하거나 SSO (Single Sign-On) 인증을 사용하는 경우 수동으로 수행합니다.

확장이 설치되면 Studio 인터페이스의 왼쪽 사이드 바에 아이콘으로 표시됩니다. 이 확장이 제공하는 사용자 인터페이스를 사용하여 유휴 시간 제한을 구성 할 수 있습니다. 설치 지침은 GitHub 저장소에서 제공됩니다.

유휴 시간 제한 매개 변수는 활성 노트북 세션이없는 유휴 리소스가 종료되는 시간을 설정하는 것입니다. 기본적으로 유휴 시간 제한은 다음으로 설정됩니다. 120

제한 사항 및 문제 해결

자동 종료 확장에는 다음과 같은 제한 사항이 있습니다.

  • 확장 프로그램은 열린 터미널의 활동을 모니터링하지 않습니다. 예를 들어, 커널이 구성한 시간 동안 유휴 상태이지만 터미널이 아닌 경우 확장 프로그램은 터미널과 커널을 종료합니다.
  • 확장을 다시 설치하고 유휴 시간 제한을 구성해야합니다. JupyterServer SageMaker Studio 콘솔에서 다시 만듭니다. 자동화 된 설치 방법을 사용하는 경우 제한이 아닙니다.

확장 로그를 확인할 수 있습니다. 아마존 클라우드 워치 아래 /aws/sagemaker/studio 로그 그룹을 확인하고 <Studio_domain>/<user_profile>/JupyterServer/default 로그 스트림.

Studio 자동 종료 확장 검사기

다음 다이어그램은 이메일 알림을 활성화하여 Studio에있는 여러 사용자 프로필 내에서 실행중인 유휴 리소스를 추적하는 방법을 보여줍니다.

Studio 도메인에 자동 종료 확장 프로그램을 설치하는 방법에 관계없이 관리자는이 확장 프로그램없이 실행중인 사용자를 추적하고 경고 할 수 있습니다. 규정 준수를 추적하고 비용을 최적화하려면 다음 지침을 따르십시오. GitHub 레포 자동 종료 확장 검사기를 설정하고 이벤트 알림을 활성화합니다.

아키텍처 다이어그램에 따라 CloudWatch 이벤트 규칙 정기적 인 일정 (예 : 매시간 또는 야간)에 따라 트리거됩니다. 규칙을 생성하기 위해 고정 일정을 선택하고 작업 실행 빈도를 지정합니다. 우리의 목표를 위해 우리는 AWS 람다 Studio 도메인의 모든 사용자 프로필이 자동 종료 용 확장 프로그램을 설치했는지 여부를 주기적으로 확인하는 기능입니다. 이 기능은이 요구 사항을 충족하지 못한 사용자 프로필 이름을 수집합니다.

그런 다음 사용자 프로필은 아마존 단순 알림 서비스 (Amazon SNS) Studio 관리자 및 기타 이해 관계자가 알림을 받기 위해 구독 할 수있는 주제입니다 (예 : 이메일 또는 Slack을 통해). 다음 스크린 샷은 사용자 프로필이 포함 된 이메일 경고 알림을 보여줍니다. user-wuser-y SageMaker 도메인 내 d-bo6udbiz4vmi 자동 종료 확장 프로그램을 설치하지 않았습니다.

자동 종료 데이터 랭글러 리소스

자동 종료 확장이 어떻게 작동하는지 자세히 보여주기 위해 Studio 내 데이터 랭글러의 관점에서 살펴 보겠습니다. 데이터 랭글러는 데이터 과학자와 엔지니어가 시각적 인터페이스를 사용하여 ML 애플리케이션을위한 데이터를 더 빠르게 준비 할 수 있도록하는 SageMaker의 새로운 기능입니다.

Studio에서 Data Wrangler를 시작하면 자동으로 ml.m5.4xlarge 해당 인스턴스를 사용하여 커널을 시작합니다. 데이터 랭글러를 사용하지 않는 경우 추가 요금이 발생하지 않도록 실행되는 인스턴스를 종료하는 것이 중요합니다.

데이터 랭글러는 60 초마다 데이터 흐름을 자동으로 저장합니다. 작업 손실을 방지하려면 데이터 랭글러를 종료하기 전에 데이터 흐름을 수동으로 저장하십시오. 그렇게하려면 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 그런 다음 데이터 랭글러 흐름 저장.

Studio에서 Data Wrangler 인스턴스를 종료하려면 인스턴스 및 커널 실행 상. 아래에 앱 실행, locate 전에, sagemaker-data-wrangler-1.0 앱. 선택 출력 이 앱 옆에있는 아이콘.

이러한 단계를 수동으로 수행하는 것은 번거롭고 잊기 쉽습니다. 자동 종료 확장을 사용하면 추가 SageMaker 비용을 피하기 위해 데이터 랭글러를 구동하는 유휴 리소스가 조심스럽게 종료되도록 할 수 있습니다.

결론

이 게시물에서는 자동 종료 Jupyter 확장을 사용하여 Studio 내에서 실행중인 유휴 리소스를 종료함으로써 SageMaker 비용을 줄이는 방법을 시연했습니다. 또한 자동 종료 확장 검사기를 설정하고 이벤트 알림을 활성화하여 확장 프로그램을 설치하지 않은 Studio 내 사용자 프로필을 추적하는 방법도 보여주었습니다. 마지막으로 확장 기능이 데이터 랭글러를 지원하는 유휴 리소스를 종료하여 데이터 랭글러 비용을 줄이는 방법을 보여주었습니다.

리소스 사용량 및 비용 최적화에 대한 자세한 내용은 Amazon SageMaker에서 리소스 크기를 적절하게 조정하고 불필요한 비용 방지.

의견이나 질문이 있으면 의견란에 남겨주세요.


저자에 관하여

아룬 프라 사스 샨 카르 AWS의 인공 지능 및 기계 학습 (AI / ML) 전문 솔루션 아키텍트로서 글로벌 고객이 클라우드에서 AI 솔루션을 효과적이고 효율적으로 확장 할 수 있도록 지원합니다. 여가 시간에 Arun은 공상 과학 영화를보고 클래식 음악을 듣는 것을 즐깁니다.

 안드라스 가르 조 AWS AI Platforms 팀의 ML 솔루션 설계자이며 고객이 SageMaker로 마이그레이션하고 모범 사례를 채택하며 비용을 절감 할 수 있도록 지원합니다.

파반 쿠마르 선더 Amazon Web Services의 선임 R & D 엔지니어입니다. 그는 기술 지침을 제공하고 고객이 AWS에서 가능한 기술을 보여줌으로써 혁신 능력을 가속화하도록 돕습니다. 그는 고객을 위해 AI / ML, IoT 및 로보틱스를 중심으로 여러 프로토 타입을 제작했습니다.

알렉스 더시 싱가포르에 기반을 둔 AWS의 Machine Learning Specialist Solutions Architect입니다. Alex는 동남아시아의 고객이 AI 및 ML을 사용하여 솔루션을 설계하고 구현할 수 있도록 지원합니다. 그는 또한 카트 타기, 오픈 소스 프로젝트 작업, 새로운 ML 연구를 따라 잡는 것을 좋아합니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/save-costs-by-automatically-shutting-down-idle-resources-within-amazon-sagemaker-studio/

spot_img

최신 인텔리전스

spot_img