제퍼넷 로고

AWS SageMaker의 새로운 기능 탐색 — Clarify, Pipelines, Feature Store

시간


AWS SageMaker에 대한 두 부분으로 구성된 시리즈의 2 부에 오신 것을 환영합니다. 읽지 않았다면 일부 1, 뛰어 넘고 먼저하십시오. 그렇지 않으면 몇 가지 중요한 새로운 SageMaker 기능을 살펴 보겠습니다.

  • 명확히, "ML 모델의 편향을 감지"하고 모델 해석 가능성을 지원한다고 주장합니다.
  • SageMaker 파이프 라인, ML 파이프 라인의 흐름을 자동화하고 구성하는 데 도움이됩니다.
  • 기능 저장소, ML 워크 플로 용으로 특별히 제작 된 기능을 저장, 검색, 편집 및 공유하기위한 도구입니다.

명확하게 : 편향성없는 AI에는 인간 요소가 필요합니다

XNUMX 월 AWS re : Invent 이벤트에서 Swami Sivasubramanian은 "엔드 투 엔드 머신 러닝 워크 플로우에서 편향 감지"도구로 Clarify를 도입했습니다. 열광적 인 박수와 휘파람에. 그는 편견과 공정성으로 일하는 AWS ML의 응용 과학 관리자 인 Nashlie Sephus를 소개했습니다. Sephus가 분명히 밝혔 듯이 데이터 수집, 데이터 레이블 지정 및 선택, 배포시 (예 : 모델 드리프트) 등 ML 워크 플로의 모든 단계에서 편향이 나타날 수 있습니다.

Clarify의 범위는 광범위합니다. 다음을 수행 할 수 있다고 주장합니다.

  • 탐색 적 데이터 분석 중 편향 분석 수행
  • 훈련 후 편향 및 설명 가능성 분석 수행
  • 프로덕션 모델에 대한 개별 추론 설명 (모델이 배포 된 후)
  • 통합하다 모델 모니터 모델의 편향에 대한 실시간 경고를 제공합니다.

Clarify는 비교적 사용자 친화적 인 인터페이스와 편리한 API로 위의 각각에 대해 유용한 진단 세트를 제공하지만 위의 주장은 완전히 과장되어 있습니다. 문제는 알고리즘 편향이 클래스 불균형 및 긍정적 인 예측 값과 같은 메트릭으로 축소 될 가능성이 거의 없다는 것입니다. 이러한 메트릭에 대한 통찰력을 제공하는 제품을 갖는 것은 가치가 있지만 사실은 테이블 스테이크 미만이라는 것입니다. 기껏해야 Clarify가 전체 ML 워크 플로에서 편향을 감지한다고 주장하는 SageMaker는 마케팅과 실제 가치 창출 간의 격차를 반영합니다.

명확하게 말하면 알고리즘 편향은 우리 시대의 큰 도전 중 하나입니다. 대규모 컴퓨팅 편향에 대한 이야기는 이제 너무 흔하여 Amazon 자체가 놀라운 일이 아닙니다.여성에 대한 편견을 보여주는 비밀 모집 도구를 폐기합니다.”알고리즘 편향이 ML 파이프 라인에 들어갈 수있는 직접적인 방법을 경험하려면 교육용 게임을 확인하십시오. 최적의 생존.

알고리즘 편향과 공정성을 일련의 메트릭으로 줄이는 것은 환원적일뿐만 아니라 위험합니다. 모델 배포에 필요한 도메인 전문 지식과 주요 이해 관계자 (도메인 전문가 또는 전통적으로 소외된 커뮤니티의 구성원)를 포함하지 않습니다. 또한 편견과 공정성이 실제로 무엇인지에 대한 주요 대화에 관여하지 않습니다. 그리고 대부분의 경우 요약 통계로 쉽게 축소 할 수 없습니다.

다음을 포함하여 이러한 문제에 대한 방대한 문헌이 증가하고 있습니다. 21 개의 공정성 정의와 그 정치 (나라 야난), 알고리즘 공정성 : 선택, 가정 및 정의 (Mitchell et al.), 위험 점수의 공정한 결정에서의 고유 한 절충 (Kleingberg et al.), 마지막은 기본적으로 동시에 충족 될 수없는 알고리즘 공정성에 대한 세 가지 다른 정의가 있음을 보여줍니다.

또한 중요한 작업이 있습니다 팀니트 게브루, Joy Buolamwini 및 기타 다수 (예 : 성별 가리개), 이는 알고리즘 편향이 단순히 데이터 및 메트릭 훈련의 문제가 아니라는 사실에 대한 목소리를 제공합니다. Gebru 박사의 말에서:“공정성은 데이터 세트에 관한 것이 아니라 수학에 관한 것도 아닙니다. 공정성은 사회에 관한 것이기도합니다. 엔지니어로서 과학자로서 우리는 그 사실을 피할 수 없습니다.”

공정하게 말하면 Clarify의 선적 서류 비치 최종 사용자 및 커뮤니티를 포함한 이해 관계자들 간의 합의 구축 및 협업이 공정한 모델 구축의 일부임을 분명히합니다. 또한 고객은“문제 형성, 데이터 세트 구성, 알고리즘 선택, 모델 교육 프로세스, 테스트 프로세스, 배포 및 모니터링 / 피드백과 같은 ML 수명주기의 각 단계에서 공정성과 설명 가능성을 고려해야합니다. 이 분석을 수행하는 데 적합한 도구를 갖는 것이 중요합니다.”

안타깝게도 "Clarify는 기계 학습 워크 플로 전반에 걸쳐 편향 감지 기능을 제공합니다."와 같은 말은 솔루션을 푸시 버튼처럼 들리게 만듭니다. 마치 Clarify에 대해 AWS에 비용을 지불하면 모델이 편향되지 않을 것입니다. Amazon의 Sephus는 편견이 그녀의 프레젠테이션에서 훨씬 더 많은 것을 요구할 것임을 분명히 이해하고 설명하지만, 대부분의 기업 임원은 그러한 뉘앙스를 잃게 될 것입니다.

핵심 사항은 Clarify가 편리한 인터페이스에서 몇 가지 유용한 진단을 제공하지만 구매자는주의해야한다는 것입니다! 이것은 결코 알고리즘 편향에 대한 해결책이 아닙니다.

파이프 라인 : 올바른 문제이지만 복잡한 접근 방식

SageMaker 파이프 라인 (동영상 자습서, 릴리스를 누르십시오). 이 도구는 "머신 러닝을위한 최초의 CI / CD 서비스"라고 주장합니다. 자동으로 ML 워크 플로를 실행하고 교육을 구성하는 데 도움이됩니다. 기계 학습 파이프 라인에는 종종 여러 단계 (예 : 데이터 추출, 변환,로드, 정리, 중복 제거, 교육, 검증, 모델 업로드 등)가 필요하며, Pipelines는이를 하나로 묶어 데이터 과학자가 AWS에서 이러한 워크로드를 실행할 수 있도록 도와줍니다.

그래서 얼마나 잘합니까? 첫째, 코드 기반이며 AWS 코드 파이프라인이었다 포인트 앤 클릭 기반. 이것은 분명히 올바른 방향으로의 움직임입니다. 구성은 전통적으로 끊임없이 변화하는 웹 콘솔에서 수십 개의 콘솔 구성을 전환하는 문제 였는데, 이는 느리고 실망스럽고 재현성이 매우 높았습니다. 포인트 앤 클릭은 재현성의 반대입니다. 코드에 파이프 라인이 있으면 파이프 라인을 더 쉽게 공유하고 편집 할 수 있습니다. SageMaker Pipelines는 컴퓨팅 리소스를 코드로 구성하는 강력한 전통을 따르고 있습니다 (가장 잘 알려진 예는 Kubernetes or 요리사).

안정적인 API를 통해 소스 제어 코드에서 구성을 지정하는 것은 업계가 움직이는 곳이었습니다.

둘째, SageMaker 파이프 라인은 Python으로 작성되었으며 동적 프로그래밍 언어의 모든 기능을 갖추고 있습니다. 다음과 같은 대부분의 기존 범용 CI / CD 솔루션 Github 작업, 서클 CIAzure 파이프 라인 정적 YAML 파일을 사용하십시오. 이것은 파이프 라인이 더 강력하다는 것을 의미합니다. 그리고 다른 프로그래밍 언어 대신 Python을 선택하는 것은 현명했습니다. 이는 데이터 과학을위한 주요 프로그래밍 언어이며 아마도 가장 큰 견인력을 가지고있을 것입니다 (두 번째로 많이 사용되는 언어 인 R은 시스템 작업에 적합하지 않으며 대부분의 비 데이터 개발자에게는 익숙하지 않습니다).

그러나 도구의 채택이 원활하지 않습니다. 공식 튜토리얼 콘솔 구성을 전환하여 IAM 권한을 올바르게 설정해야하며 사용자가 other 자습서 이를 수행하기위한 IAM 권한. 용어가 실제 콘솔과 일치하지 않는 것처럼 보입니다 ( "인라인 정책 추가"대 "정책 연결"또는 "신뢰 정책"대 "신뢰 관계"). 이러한 작은 변형은 클라우드 서버 관리 전문가가 아닌 사람들 (예 : SageMaker Pipelines의 대상 고객)에게는 매우 불쾌 할 수 있습니다. AWS가 제공하는 많은 서비스를 고려할 때 오래되고 일관되지 않은 문서는 AWS에게 어려운 문제입니다.

이 도구는 또한 꽤 가파른 학습 곡선을 가지고 있습니다. 공식 자습서에서는 사용자가 데이터 세트를 다운로드하고이를 학습 및 검증 세트로 분할하고 결과를 AWS 모델 레지스트리. 불행히도 10 단계와 300 줄의 dev-ops 코드가 필요합니다 (예, 계산했습니다). 여기에는 ML 학습 및 데이터 준비를위한 실제 코드가 포함되어 있지 않습니다. 가파른 학습 곡선은 특히 Github Actions와 같은 근본적으로 단순한 (범용) CI / CD 솔루션에 비해 채택에 어려움이 될 수 있습니다.

이것은 엄격하게 공정한 비교가 아니며 (앞서 언급했듯이) SageMaker Pipelines가 더 강력합니다. 전체 프로그래밍 언어를 사용하고 훨씬 더 많은 작업을 수행 할 수 있습니다. 그러나 실제로 CI / CD는 파이프 라인이 실행되는시기를 정의하는 데만 사용되는 경우가 많습니다 (예 : 코드 푸시 또는 정기적 인 간격). 그런 다음 작업 실행기를 호출합니다 (예 : 꿀꺽 꿀꺽 마시다 or 피인보크 둘 다 배우기가 훨씬 쉽습니다. pyinvoke의 튜토리얼은 19 줄입니다), 프로그래밍 언어의 모든 기능을 제공합니다. 널리 사용되는 boto3와 같은 해당 언어 SDK를 통해 AWS 서비스에 연결할 수 있습니다. 실제로 우리 중 한 명이 Github Actions CI / CD를 사용하여 매주 수집했습니다. 2020 년 선거를 앞두고 수십 개 주에 걸친 우편 투표 등록 데이터최신 Wikipedia 덤프에서 월간 간단한 언어 모델 구축. 따라서 문제는 SageMaker Pipelines와 같은 올인원 도구가 일반적으로 사용되는 도구를 함께 연결하여 복제 할 수 있는지 학습 할 가치가 있는지 여부입니다. 이는 SageMaker Pipelines가 통합 솔루션의 자연적인 강점에 약해 (다른 도구간에 보안 권한을두고 싸울 필요가 없음) 더욱 복잡해졌습니다.

AWS는 올바른 문제를 해결하기 위해 노력하고 있습니다. 그러나 가파른 학습 곡선을 감안할 때 SageMaker Pipelines가 사람들이 사용하던 기존의 단순한 도구에서 전환하도록 설득하기에 충분한 지 여부는 불분명합니다. 이 절충점은 더 광범위한 논쟁을 의미합니다. 기업이 올인원 스택을 수용해야합니까? 아니면 동급 최고의 제품을 사용해야합니까? 곧 그 질문에 대해 자세히 알아보십시오.

기능 저장소 : 기업에 꼭 필요한 기능

Sivasubramanian이 re : Invent 기조 연설에서 언급했듯이 "기능은 고품질 모델.”SageMaker Feature Store는 짧은 지연 시간으로 훈련 및 추론을위한 기계 학습 기능을 생성, 공유 및 검색하기위한 리포지토리를 제공합니다.

이는 Uber의 ML 플랫폼에서와 같이 너무 오랫동안 다양한 기업 및 업종에 걸쳐 고립되어있는 ML 워크 플로의 여러 주요 측면 중 하나이기 때문에 흥미 롭습니다. 미켈란젤로 (그 기능 저장소는 미켈란젤로 팔레트). 데이터 과학 민주화의 큰 부분 데이터 도구를 사용하려면 이러한 도구를 표준화하고 데이터 전문가가 더 쉽게 액세스 할 수 있어야합니다. 이 움직임은 계속되고 있습니다. 몇 가지 매력적인 예는 Airbnb의 오픈 소싱 기류, 데이터 워크 플로 관리 도구, 다음과 같은 ML 추적 플랫폼의 출현 무게와 Biases, 해왕성 AI혜성 ML. Databricks의 MLFlow와 같은 더 큰 플랫폼은 ML 수명주기의 모든 측면을 캡처하려고합니다.

대부분의 대형 기술 회사에는 내부 기능 저장소가 있습니다. 그리고 기능 저장소를 유지하지 않는 조직은 많은 중복 작업으로 끝납니다. Datatron의 공동 창립자이자 CEO 인 Harish Doddi가 몇 년 전에 말했듯이 오라일리 데이터 쇼 팟 캐스트:“요즘 기업과 이야기 할 때 데이터 과학자가 중앙 집중식 기능 저장소가 없기 때문에 작업을 복제하고 있다는 사실을 모두가 알고 있습니다. 내가 이야기하는 모든 사람들은 그들이 가장 쉬운 것에 따라 기능 스토어를 구축하거나 구매하기를 원합니다.”

문제 공간을 파악하려면 점점 늘어나는 솔루션 세트를 살펴보십시오. 그 중 일부는 경쟁 환경 테이블에 캡슐화되어 있습니다. FeatureStore.org:

SageMaker Feature Store는 유망합니다. 비교적 Pythonic API를 사용하여 기능 그룹을 생성하고 선호하는 PyData 패키지 (예 : Pandas 및 NumPy)에 액세스 할 수 있습니다.이 모든 것이 Jupyter 노트북에서 편안합니다. 기능 생성 후 기능 그룹에 결과를 저장하는 것은 간단하며 수집 프로세스를 쉽게 병렬화 할 수있는 max_workers 키워드 인수도 있습니다. 오프라인 및 온라인 상점 모두에 기능을 저장할 수 있습니다. 후자는 기능의 최신 값에 대한 짧은 대기 시간 액세스를 가능하게합니다.

기능 저장소는 기본 사용 사례에 적합합니다. 산업용 애플리케이션과 함께 프로덕션 용으로 사용할 준비가되었는지 여부를 결정할 수 없었지만 이러한 기능이 필요한 사람은 이미 SageMaker를 사용하고 있거나 워크 플로에 통합 할 것을 고려중인 경우 확인해야합니다.

마무리

마지막으로 SageMaker와 같은 올인원 플랫폼이 최신 첨단 도구에 액세스해야하는 현대 데이터 과학자의 모든 요구를 충족 할 수 있는지 여부에 대한 질문에 도달합니다.

올인원 플랫폼과 동급 최고의 도구 사이에는 절충안이 있습니다. 올인원 플랫폼은 성능을 높이기 위해 솔루션을 함께 배치 할 수 있다는 점에서 매력적입니다. 또한 서로 다른 도구를 원활하게 통합 할 수 있습니다 (위에서 살펴본 것처럼 항상 그 약속을 이행하지는 않습니다). 권한, 보안 및 호환성이 사용자 개입없이 시스템에서 원활하게 처리되는 세상을 상상해보십시오. 동급 최고의 도구는 워크 플로의 개별 단계를 더 잘 해결할 수 있지만 함께 연결하려면 약간의 작업이 필요합니다. 우리 중 하나 이전에 동급 최고의 도구가 데이터 과학자에게 더 좋다고 주장했습니다.. 배심원은 아직 밖에 있습니다. 데이터 과학 분야는 지원 도구로 폭발적으로 증가하고 있으며 어떤 서비스 (또는 이들의 조합)가 가장 효과적인 데이터 환경을 만드는지 파악하는 것은 기술 커뮤니티를 오랫동안 점유 할 것입니다.

Tianhui Michael Li는 실용 연구소 설립자이자 사장 데이터 인큐베이터, 데이터 과학 교육 및 배치 회사입니다. 이전에는 Foursquare에서 수익 화 데이터 과학을 이끌 었으며 Google, Andreessen Horowitz, JP Morgan 및 DE Shaw에서 근무했습니다.

휴고 보인 앤더슨 데이터 과학 전도 책임자이자 마케팅 부사장입니다. 코일. 이전에는 데이터 과학자였습니다. DataCamp, 예일 대학교 및 콜드 스프링 하버 연구소에서 데이터 과학 주제, SciPy, PyCon 및 ODSC와 같은 컨퍼런스 및 Data Carpentry와 같은 조직과 함께 가르쳤습니다. [전체 공개 : Coiled는 서비스의 일부로 클라우드 리소스를 프로비저닝하고 관리하여 데이터 과학자를 위해 Python 코드를 확장하며 SageMaker가 서비스의 일부로 제공하는 기능도 제공합니다. 그러나 SageMaker와 같은 올원 플랫폼과 Coiled와 같은 제품이 상호 보완적인 것으로 볼 수 있다는 것도 사실입니다. Coiled에는 Coiled와 함께 SageMaker Studio를 사용하는 여러 고객이 있습니다.] 

숙련 된 데이터 또는 AI 실무자 인 경우 다음을 통해 커뮤니티와 전문 지식을 공유하는 것이 좋습니다. 게스트 포스트 VentureBeat.

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

  • 관심있는 주제에 대한 최신 정보
  • 뉴스 레터
  • 통제 된 사고 리더 콘텐츠 및 Transform과 같은 소중한 이벤트에 대한 할인 된 액세스
  • 네트워킹 기능 등

회원 가입

출처 : https://venturebeat.com/2021/02/14/exploring-aws-sagemakers-new-features-clarify-pipelines-feature-store/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?