제퍼넷 로고

Amazon SageMaker Studio를 통해 BMW Group의 AI/ML 개발 가속화 | 아마존 웹 서비스

시간

이 게시물은 BMW 그룹의 Marc Neumann, Amor Steinberg 및 Marinus Krommenhoek과 공동으로 작성되었습니다.

XNUMXD덴탈의 BMW 그룹 – 독일 뮌헨에 본사를 두고 있으며 전 세계적으로 149,000명의 직원이 근무하고 있으며 30개국에 걸쳐 15개 이상의 생산 및 조립 시설에서 제조하고 있습니다. 오늘날 BMW 그룹은 세계 최고의 프리미엄 자동차 및 오토바이 제조업체이자 프리미엄 금융 및 모빌리티 서비스 제공업체입니다. BMW 그룹은 지능형 소재 혼합, 디지털화를 향한 기술 전환, 자원 효율적인 생산을 통해 혁신 리더로서 생산 기술 및 지속 가능성의 트렌드를 설정합니다.

점점 더 디지털화되고 빠르게 변화하는 세상에서 BMW 그룹의 비즈니스 및 제품 개발 전략은 데이터 중심 의사 결정에 크게 의존하고 있습니다. 이에 따라 데이터 과학자와 기계 학습(ML) 엔지니어에 대한 필요성이 크게 증가했습니다. 이러한 숙련된 전문가들은 BMW 비즈니스 프로세스의 품질과 효율성을 향상하고 정보에 기초한 리더십 결정을 가능하게 하는 모델을 구축하고 배포하는 임무를 맡고 있습니다.

데이터 과학자와 ML 엔지니어는 작업을 위해 유능한 도구와 충분한 컴퓨팅이 필요합니다. 이에 BMW는 수년 전부터 온프레미스에 중앙 집중식 ML/딥 러닝 인프라를 구축하고 지속적으로 업그레이드했습니다. AI 성장을 위한 기반을 마련하기 위해 BMW 그룹은 운영 오버헤드, 소프트웨어 라이선스 및 하드웨어 관리를 줄이면서 확장성과 탄력성에 대한 도약이 필요했습니다.

이 게시물에서는 BMW Group이 AWS Professional Services와 협력하여 이러한 문제를 해결하기 위해 JuMa(Jupyter Managed) 서비스를 구축한 방법에 대해 설명합니다. JuMa는 데이터 분석가, ML 엔지니어, 데이터 과학자를 위한 BMW 그룹의 AI 플랫폼 서비스로, 통합 개발 환경(IDE)을 통해 사용자 친화적인 작업 공간을 제공합니다. 그것은에 의해 구동됩니다 아마존 세이지 메이커 스튜디오 Python용 JupyterLab 및 R용 Posit Workbench를 제공합니다. 이 제품을 통해 BMW ML 엔지니어는 코드 중심 데이터 분석 및 ML을 수행하고 셀프 서비스 기능 및 인프라 자동화를 제공하여 개발자 생산성을 높이며 BMW의 중앙 집중식 IT 도구 환경과 긴밀하게 통합됩니다.

이제 BMW Group의 모든 데이터 과학자, ML 엔지니어 및 데이터 분석가가 JuMa를 사용할 수 있습니다. 이 서비스는 전 세계 데이터 과학 팀과 엔지니어링 팀 간의 원활한 협업을 촉진하는 비용 효율적이고 확장 가능한 개발 환경을 제공하여 BMW 전체의 ML 개발 및 생산 워크플로(MLOps)를 간소화합니다. 그 결과 실험 속도가 빨라지고 아이디어 검증 주기가 단축됩니다. 또한, JuMa 인프라는 다음을 기반으로 합니다. AWS 서버리스 및 관리형 서비스를 통해 DevOps 팀의 운영 오버헤드를 줄이고 BMW Group에서 사용 사례를 활성화하고 AI 혁신을 가속화하는 데 집중할 수 있습니다.

온프레미스 AI 플랫폼 성장의 과제

JuMa 서비스를 도입하기 전에 전 세계 BMW 팀은 JupyterHub 및 RStudio 환경을 제공하는 두 개의 온프레미스 플랫폼을 사용하고 있었습니다. 이러한 플랫폼은 BMW 그룹에서 AI의 확장성을 허용하기에는 CPU, GPU, 메모리 측면에서 너무 제한적이었습니다. 더 많은 온프레미스 하드웨어, 더 많은 소프트웨어 라이선스 및 지원 비용을 관리하여 이러한 플랫폼을 확장하려면 상당한 초기 투자와 유지 관리에 대한 많은 노력이 필요합니다. 게다가 제한된 셀프 서비스 기능을 사용할 수 있었기 때문에 DevOps 팀의 운영에 많은 노력이 필요했습니다. 더 중요한 것은 이러한 플랫폼의 사용이 BMW 그룹의 IT 클라우드 우선 전략과 맞지 않았다는 것입니다. 예를 들어, 이러한 플랫폼을 사용하는 팀은 AI/ML 프로토타입을 AWS에서 실행되는 솔루션의 산업화로 쉽게 마이그레이션하는 것을 놓쳤습니다. 이와 대조적으로 이미 실험을 위해 AWS를 직접 사용하고 있는 데이터 과학 및 분석 팀은 BMW 그룹의 내부 정책, 현지 법률 및 규정을 준수하는 동시에 AWS 인프라 구축 및 운영도 관리해야 했습니다. 여기에는 AWS 계정 주문, 인터넷 액세스 제한, 허용된 패키지 사용, Docker 이미지 최신 유지 등 다양한 구성 및 거버넌스 활동이 포함됩니다.

솔루션 개요

JuMa는 AWS를 기반으로 구축된 완전 관리형 멀티 테넌트, 보안이 강화된 AI 플랫폼 서비스입니다. SageMaker 스튜디오 중심에서. AWS 서버리스 및 관리형 서비스를 인프라의 주요 구성 요소로 사용함으로써 JuMa DevOps 팀은 서버 패치, 스토리지 업그레이드 또는 기타 인프라 구성 요소 관리에 대해 걱정할 필요가 없습니다. 이 서비스는 이러한 모든 프로세스를 자동으로 처리하여 일반적으로 최신 상태이고 바로 사용할 수 있는 강력한 기술 플랫폼을 제공합니다.

JuMa 사용자는 셀프 서비스 포털을 통해 작업 공간을 쉽게 주문하여 팀을 위한 안전하고 격리된 개발 및 실험 환경을 만들 수 있습니다. JuMa 작업 영역이 프로비저닝된 후 사용자는 몇 번의 클릭만으로 SageMaker Studio에서 JupyterLab 또는 Posit 워크벤치 환경을 시작하고 가장 익숙한 도구와 프레임워크를 사용하여 즉시 개발을 시작할 수 있습니다. JuMa는 ID 및 액세스 관리, 역할 및 권한 관리를 포함한 다양한 BMW 중앙 IT 서비스와 긴밀하게 통합되어 있습니다. BMW 클라우드 데이터 허브 (BMW의 AWS 데이터 레이크) 및 온프레미스 데이터베이스. 후자는 AI/ML 팀이 데이터 파이프라인을 구축할 필요 없이 권한이 있는 경우 필요한 데이터에 원활하게 액세스하는 데 도움이 됩니다. 또한 노트북을 회사 Git 리포지토리에 통합하여 버전 제어를 사용하여 협업할 수 있습니다.

이 솔루션은 AI/ML 팀을 위한 AWS 계정 관리, 구성 및 사용자 정의와 관련된 모든 기술적 복잡성을 추상화하여 AI 혁신에 전적으로 집중할 수 있도록 합니다. 플랫폼은 작업 공간 구성이 기본적으로 BMW의 보안 및 규정 준수 요구 사항을 충족하도록 보장합니다.

다음 다이어그램은 아키텍처의 상위 수준 컨텍스트 보기를 설명합니다.

사용자 여정

BMW AI/ML 팀원은 BMW의 표준 카탈로그 서비스를 사용하여 JuMa 작업 공간을 주문할 수 있습니다. 라인 관리자의 승인을 받은 후 주문한 JuMa 작업 공간은 플랫폼에 의해 완전 자동으로 프로비저닝됩니다. 작업공간 프로비저닝 워크플로우에는 다음 단계가 포함됩니다(아키텍처 다이어그램에 번호가 매겨져 있음).

  1. 데이터 과학자 팀은 BMW 카탈로그에서 새로운 JuMa 작업 공간을 주문합니다. JuMa는 작업 공간에 대한 새 AWS 계정을 자동으로 프로비저닝합니다. 이렇게 하면 다음에 언급된 연합 모델 계정 구조를 따르는 작업 영역 간의 완전한 격리가 보장됩니다. SageMaker Studio 관리 모범 사례.
  2. JuMa는 작업 공간을 구성합니다( 세이지메이커 도메인) 사전 정의된 것만 허용 아마존 세이지 메이커 실험 및 개발, 특정 사용자 정의 커널 및 수명주기 구성에 필요한 기능입니다. 또한 노트북이 보안 환경에서 실행되도록 보장하는 필수 서브넷과 보안 그룹을 설정합니다.
  3. 작업 영역이 프로비저닝된 후 권한 있는 사용자는 JuMa 포털에 로그인하고 SageMaker 사전 서명된 URL을 사용하여 작업 영역 내에서 SageMaker Studio IDE에 액세스합니다. 사용자는 SageMaker Studio 개인 공간을 열거나 공유 공간. 공유 공간은 동일한 노트북에서 동시에 작업할 수 있는 여러 팀 구성원 간의 협업을 장려하는 반면, 개인 공간은 단독 작업 부하를 위한 개발 환경을 허용합니다.
  4. BMW 데이터 포털을 사용하여 사용자는 온프레미스 데이터베이스 또는 BMW의 Cloud Data Hub에 저장된 데이터에 대한 액세스를 요청할 수 있으며, 이를 통해 데이터 준비 및 분석부터 모델 교육 및 검증에 이르기까지 개발 및 실험을 위해 작업 공간에서 사용할 수 있습니다.

AI 모델이 JuMa에서 개발되고 검증된 후 AI 팀은 BMW AI 플랫폼의 MLOP 서비스를 사용하여 이를 빠르고 쉽게 생산에 배포할 수 있습니다. 이 서비스는 사용자에게 SageMaker를 사용하여 AWS에서 프로덕션 수준의 ML 인프라와 파이프라인을 제공하며, 몇 번의 클릭만으로 몇 분 만에 설정할 수 있습니다. 사용자는 프로비저닝된 인프라에서 모델을 호스팅하고 특정 사용 사례 요구 사항에 맞게 파이프라인을 사용자 정의하기만 하면 됩니다. 이러한 방식으로 AI 플랫폼은 BMW 그룹의 전체 AI 라이프사이클을 포괄합니다.

JuMa 기능

AWS의 모범 사례 설계에 따라 JuMa 서비스는 다음에 따라 설계 및 구현되었습니다. AWS Well-Architected 프레임 워크. 각 Well-Architected 기반의 아키텍처 결정은 다음 섹션에서 자세히 설명합니다.

보안 및 규정 준수

테넌트 간의 완전한 격리를 보장하기 위해 각 작업 공간은 자체 AWS 계정을 받습니다. 여기서 권한 있는 사용자는 분석 작업은 물론 AI/ML 모델 개발 및 실험에 대해 공동으로 협업할 수 있습니다. JuMa 포털 자체는 정책 기반 격리를 사용하여 런타임에 격리를 시행합니다. AWS 자격 증명 및 액세스 관리 (IAM) 및 JuMa 사용자의 컨텍스트. 이 전략에 대한 자세한 내용은 다음을 참조하세요. IAM을 통한 런타임, 정책 기반 격리.

데이터 과학자는 포털에서 생성된 사전 서명된 URL을 통해 BMW 네트워크를 통해서만 자신의 도메인에 액세스할 수 있습니다. 해당 도메인 내에서 직접 인터넷 액세스가 비활성화되어 있습니다. Sagemaker 도메인 권한은 다음을 사용하여 구축됩니다. Amazon SageMaker 역할 관리자 SageMaker와 같은 개발에 필요한 AWS 서비스에 대한 최소 권한 액세스를 보장하는 페르소나, 아마존 아테나, 아마존 단순 스토리지 서비스 (아마존 S3) 및 AWS 접착제. 이 역할은 ML 가드레일(예: 거버넌스 및 통제), 다음 중 하나에서 발생하는 ML 학습 시행을 포함합니다. 아마존 가상 프라이빗 클라우드 (Amazon VPC) 또는 인터넷 없이 JuMa의 검증된 사용자 지정 최신 SageMaker 이미지만 사용할 수 있습니다.

JuMa는 개발, 실험 및 임시 분석을 위해 설계되었으므로 30일 후에 데이터를 제거하는 보존 정책을 구현합니다. 필요할 때마다 데이터에 액세스하고 장기간 저장하기 위해 JuMa는 BMW Cloud Data Hub 및 BMW 온프레미스 데이터베이스와 원활하게 통합됩니다.

마지막으로 JuMa는 여러 지역이 특별한 현지 법적 상황을 준수하도록 지원합니다. 예를 들어 BMW의 데이터 주권을 활성화하기 위해 로컬에서 데이터를 처리해야 합니다.

운영 효율성

JuMa 플랫폼 백엔드와 작업 공간은 모두 다음으로 구현됩니다. AWS 서버리스 그리고 관리형 서비스. 이러한 서비스를 사용하면 BMW 플랫폼 팀이 엔드 투 엔드 솔루션을 유지 관리하고 운영하는 노력을 최소화하여 무운영 서비스가 되기 위해 노력하는 데 도움이 됩니다. 작업공간과 포털은 모두 다음을 사용하여 모니터링됩니다. 아마존 클라우드 워치 로그, 지표, 경보를 통해 핵심성과지표(KPI)를 확인하고 문제가 있으면 플랫폼 팀에 사전에 알립니다. 추가적으로, AWS 엑스레이 분산 추적 시스템은 여러 구성 요소 전체에서 요청을 추적하고 작업 공간 관련 컨텍스트로 CloudWatch 로그에 주석을 추가하는 데 사용됩니다.

JuMa 인프라에 대한 모든 변경 사항은 IaC(Infrastructure as Code)를 사용하여 자동화를 통해 관리 및 구현됩니다. 이를 통해 수동 작업과 인적 오류를 줄이고 일관성을 높이며 두 JuMa 플랫폼 백엔드 작업 공간 모두에서 재현 가능한 버전 제어 변경을 보장할 수 있습니다. 특히 모든 작업 공간은 다음을 기반으로 구축된 온보딩 프로세스를 통해 프로비저닝 및 업데이트됩니다. AWS 단계 함수, AWS 코드빌드및 Terraform. 따라서 JuMa 플랫폼에 새로운 작업 공간을 온보딩하는 데 수동 구성이 필요하지 않습니다.

비용 최적화

JuMa는 AWS 서버리스 서비스를 사용하여 AI/ML 팀의 요구 사항에 따라 개발 및 실험 활동 중에 사용되는 리소스에 대한 주문형 확장성, 사전 승인된 인스턴스 크기 및 종량제 모델을 보장합니다. 비용을 더욱 최적화하기 위해 JuMa 플랫폼은 SageMaker Studio 내에서 유휴 리소스를 모니터링 및 식별하고 자동으로 종료하여 사용되지 않는 리소스에 대한 비용이 발생하지 않도록 합니다.

지속 가능성

JuMa는 사용하지 않을 때에도 상당한 양의 전기를 소비하고 CO2를 배출하는 분석 및 딥 러닝 워크로드를 위해 BMW의 두 온프레미스 플랫폼을 대체합니다. AI/ML 워크로드를 온프레미스에서 AWS로 마이그레이션함으로써 BMW는 온프레미스 플랫폼을 폐기함으로써 환경에 미치는 영향을 줄일 것입니다.

또한 JuMa에 구현된 유휴 리소스 자동 종료 메커니즘, 데이터 보존 정책 및 소유자에게 작업 공간 사용 보고서를 제공하는 메커니즘은 AWS에서 AI/ML 워크로드를 실행하는 데 따른 환경적 영향을 더욱 최소화하는 데 도움이 됩니다.

성능 효율성

SageMaker Studio를 사용함으로써 BMW 팀은 실험을 가속화하는 데 도움이 될 수 있는 최신 SageMaker 기능을 쉽게 채택할 수 있는 이점을 누리고 있습니다. 예를 들어 다음을 사용할 수 있습니다. Amazon SageMaker 점프스타트 사전 훈련된 최신 오픈 소스 모델을 사용할 수 있는 기능을 제공합니다. 또한 개발 환경은 동일한 AWS 핵심 서비스를 제공하지만 개발 기능으로 제한되므로 실험에서 솔루션 산업화로 이동하는 AI/ML 팀의 노력을 줄이는 데 도움이 됩니다.

신뢰성

SageMaker Studio 도메인은 인터넷 액세스를 관리하고 의도된 AWS 서비스에 대한 액세스만 허용하기 위해 VPC 전용 모드로 배포됩니다. 네트워크는 단일 장애 지점으로부터 보호하기 위해 두 개의 가용 영역에 배포되어 사용자에 대한 플랫폼의 탄력성과 가용성을 향상시킵니다.

JuMa 작업 공간에 대한 변경 사항은 고객 환경을 업그레이드하기 전에 IaC 및 CI/CD 파이프라인을 사용하여 개발 및 통합 환경에 자동으로 배포 및 테스트됩니다.

마지막으로 저장된 데이터는 아마존 탄성 파일 시스템 SageMaker Studio 도메인용 (Amazon EFS)은 백업 목적으로 볼륨이 삭제된 후에도 유지됩니다.

결론

이 게시물에서는 BMW Group이 AWS ProServe와 협력하여 SageMaker Studio 및 기타 AWS 서버리스 및 관리형 서비스를 사용하여 AWS에서 완전 관리형 AI 플랫폼 서비스를 개발한 방법을 설명했습니다.

JuMa를 통해 BMW의 AI/ML 팀은 파괴적인 AI 솔루션의 실험과 출시 기간을 가속화하여 새로운 비즈니스 가치를 창출할 수 있는 역량을 갖추게 되었습니다. 또한 온프레미스 플랫폼에서 마이그레이션함으로써 BMW는 전반적인 운영 노력과 비용을 줄이는 동시에 지속 가능성과 전반적인 보안 상태를 높일 수 있습니다.

AWS에서 AI/ML 실험 및 개발 워크로드를 실행하는 방법에 대해 자세히 알아보려면 다음을 방문하십시오. 아마존 세이지 메이커 스튜디오.


저자에 관하여

마크 노이만 BMP 그룹의 중앙 AI 플랫폼 책임자입니다. 그는 BMW 그룹 전체의 비즈니스 가치 창출을 위해 AI 기술을 사용하기 위한 전략을 개발하고 구현하는 일을 담당하고 있습니다. 그의 주요 목표는 AI의 사용이 지속 가능하고 확장 가능하도록 보장하는 것입니다. 즉, AI를 조직 전체에 일관되게 적용하여 장기적인 성장과 혁신을 추진할 수 있다는 의미입니다. 노이만은 그의 리더십을 통해 BMW 그룹을 자동차 산업과 그 이상 분야에서 AI 기반 혁신과 가치 창출의 리더로 자리매김하는 것을 목표로 하고 있습니다.

아모르 스타인버그 BMW 그룹의 머신 러닝 엔지니어이자 BMW 그룹의 엔지니어와 데이터 과학자를 위한 코드 중심 분석 및 머신 러닝 워크벤치를 제공하는 것을 목표로 하는 새로운 서비스인 Jupyter Managed의 서비스 책임자입니다. 금융 기관에서 DevOps 엔지니어로 일한 경험을 통해 그는 유럽 연합의 은행이 직면한 과제에 대한 고유한 이해를 수집하고 기술 혁신을 위한 노력, 법률 및 규정 준수, 고객 보안 극대화 사이의 균형을 유지할 수 있었습니다.

마리누스 크롬멘훅 BMW Group의 수석 클라우드 솔루션 설계자이자 소프트웨어 개발자입니다. 그는 높은 가치를 더하고 유지 관리 및 운영이 쉬운 최첨단 서비스로 IT 환경을 현대화하는 데 열정을 쏟고 있습니다. Marinus는 마이크로서비스, 서버리스 아키텍처 및 민첩한 작업을 크게 옹호합니다. 그는 대기업 내에서 전 세계에 분산된 팀과 협력한 기록을 가지고 있습니다.

니콜라스 제이콥 베어 그는 스위스에 거주하며 데이터 엔지니어링 및 기계 학습에 중점을 두고 있는 AWS ProServe의 수석 클라우드 애플리케이션 설계자입니다. 그는 기업 고객과 긴밀히 협력하여 데이터 플랫폼을 설계하고 고급 분석 및 ML 사용 사례를 구축합니다.

호아킨 리나우도 AWS ProServe의 수석 보안 설계자입니다. 그는 개발자가 소프트웨어 품질을 향상시키는 데 도움이 되는 솔루션을 구축하는 데 열정을 갖고 있습니다. AWS 이전에는 모바일 보안부터 클라우드 및 규정 준수 관련 주제에 이르기까지 보안 업계의 여러 영역에서 일했습니다. 여가 시간에는 호아킨은 가족과 함께 시간을 보내고 공상 과학 소설을 읽는 것을 즐깁니다.

슈크라트 코드자예프 AWS ProServe의 수석 글로벌 참여 관리자입니다. 그는 AWS 고객이 데이터 활용을 통해 비즈니스 가치를 극대화할 수 있도록 영향력 있는 빅 데이터 및 AI/ML 솔루션을 제공하는 전문가입니다.

spot_img

최신 인텔리전스

spot_img