제퍼넷 로고

창고 내 머신 러닝 및 최신 데이터 과학 스택

시간

창고 내 머신 러닝 및 최신 데이터 과학 스택

조직이 데이터 과학 포트폴리오 및 기능을 성숙함에 따라 이러한 성장을 가능하게하려면 최신 데이터 스택을 구축하는 것이 중요합니다. 여기에서는 다양한인데 이터웨어 하우스 기계 학습 서비스를 개괄적으로 살펴보고 각각의 이점과 요구 사항에 대해 논의합니다.


By 닉 아코 스타, 개발자 옹호자, Alliances, Fivetran.

최신 데이터 스택

데이터 스택 수렴

데이터 분석 및 데이터 과학은 매우 고유 한 분야이지만이를 효과적으로 달성하는 데 사용되는 데이터 처리 단계에는 상당한 중복이 있습니다. 둘 다 중앙 위치에 저장된 대량의 고품질 데이터에 액세스 할 수있을뿐만 아니라 소스에서 이러한 중앙 저장소로 데이터를 가져 오는 효율적이고 신뢰할 수있는 프로세스의 이점을 누릴 수 있습니다. 최근까지 작업은 분석 및 비즈니스 인텔리전스를위한 데이터웨어 하우스, 데이터 과학 및 기계 학습을위한 데이터 레이크로 다양한 분야에 대한 별도의 기술로 복제되었습니다. 많은 새로운 서비스가 이러한 데이터 스택을 단일 환경으로 병합하기 위해 노력하고 있으며이 문서에서는 이러한 서비스에 대한 개요와 데이터 조직에 추가 할 수있는 가치를 제공합니다.

최신 데이터 과학 스택의 이점

최신 데이터 스택은 여러 데이터 소스를 분석에서 널리 사용되는 중앙 집중식 클라우드 데이터웨어 하우스로 가져 와서 저장하는 기술 모음입니다. 기계 학습 워크로드를 수용하도록 확장 할 수 있습니다. 최신 데이터 과학 스택. 최신 데이터 과학 스택은 데이터 분석 및 데이터 과학 팀을 위해 중복 작업을 수행하는 사일로와 서비스를 제거하고 모델을 학습하고 예측하는 데 사용하는 데이터에 더 가깝게 이동하여 모델 중심 AI 개발에서 데이터 중심 AI 개발. 많은 조직이 데이터웨어 하우징 기술에 상당한 투자를하여 환경을 안전하게 관리하고 운영하며 조직화하고 성능을 유지하지만 데이터는 데이터웨어 하우스에서 데이터 레이크로 샘플링되는 순간 이러한 모든 특성을 잃습니다.

현대 데이터 과학 스택으로 전환 한 이후에 발견 한 세 가지의 덜 분명한 이점이 더 있습니다. 데이터웨어 하우스에 모델을 저장하면 예측도 저장하고 SQL 쿼리를 통해 얻을 수 있습니다. 기계 학습을 사용하기 위해 임베디드 모델이나 프레임 워크를 요구하는 대신 테이블 조회를 수행하면 조직에서 기계 학습 사용을 민주화하는 데 큰 도움이 될 수 있습니다. 또한 기계 학습 프로세스의 각 단계가 동일한 데이터의 동일한 위치에서 발생하기 때문에 학습 시간과 제공 시간에 데이터가 모델로 전송 될 가능성이 적습니다. 즉, 학습-제공 편향 이를 감지하는 데 사용되는 도구는 대부분 피할 수 있습니다. 마지막으로, 기계 학습 프로세스의 모든 단계를 SQL로 수행 할 수 있으므로 Apache Airflow와 같은 도구를 사용하여 여러 단계를 함께 데이터 파이프 라인으로 구성하는 것이 간단 해집니다.

In-Warehouse Machine Learning Services 개요

BigQuery ML 및 Redshift ML

Redshift 대 Bigquery

AWS와 Google Cloud는 최근 데이터웨어 하우스 인 Redshift (왼쪽)와 BigQuery (오른쪽)에 기계 학습 기능을 추가했습니다.

BigQuery ML 및 Redshift ML은 BigQuery 및 Redshift, Google Cloud Platform 및 AWS의 각 데이터웨어 하우스에 머신 러닝 기능을 추가합니다. AWS는 최근에 레드시프트 ML빅쿼리 머신러닝 얼마 동안 사용할 수있었습니다.

둘 다 기계 학습 모델을 생성하고 모델 유형, 학습 데이터로 사용할 테이블, 예측을 생성 할 대상 기능과 같은 매개 변수 사양을 허용하는 CREATE MODEL 명령으로 SQL 구문을 확장합니다. 이러한 새로운 SQL 명령은 자동화 된 기계 학습 프로세스를 활용하여 데이터 변환 및 모델 튜닝을 제공하여 후보 모델 중에서 최상의 성능을 식별합니다. 사용자 지정 모델은 각각과 함께 사용할 수 있으며 모델 아키텍처 및 성능에있어 상당한 유연성을 제공하지만 각각 개발에는 약간의 제한이 있습니다. 커스텀 모델은 BigQuery에서 사용할 TensorFlow 모델로 저장해야하며 Redshift ML은 AWS 데이터 과학 개발 플랫폼 SageMaker와 함께 배포 된 모델을 사용해야합니다. 모델을 학습하거나웨어 하우스로 가져 오면 SELECT 문을 FROM과 함께 사용하여 테이블 대신 학습 된 모델을 지정하여 추론을 호출 할 수 있습니다. 그런 다음 사용, 감사 및 사용을 위해웨어 하우스의 예측 테이블에 쉽게 삽입 할 수 있습니다. 오류 분석.

눈송이 및 기타 옵션

눈송이가 말했다 "AI 및 ML의 전체 이니셔티브는 선택한 도구와 인터페이스 할 수 있도록 [데이터웨어 하우스]에 확장 성을 구축하는 것이 었습니다." 앞서 언급 한 AWS의 Sagemaker 플랫폼은 Snowflake가 통합 할 수있는 ML 도구의 예이며 Databricks도 마찬가지입니다. 더 인상적인 개발이 방금 출시 된 Databricks에서 일어나고 있습니다. Delta Lake 버전 1.0.0, 데이터 분석 및 데이터 과학 기술 스택을 반대 방향에서 수렴합니다. 기계 학습 기능을 데이터웨어 하우스에 가져 오는 대신 Delta Lake는 ACID 트랜잭션과 같은 기존 분석 및 비즈니스 인텔리전스 기능을 데이터 레이크에 추가하여 최신 데이터 과학 스택에 유사한 이점을 제공하는 새로운 데이터 레이크 하우스 아키텍처에 추가합니다.

검토

조직이 데이터 분석과 데이터 과학을 모두 수행하는 데 관심이있는 경우 두 가지 분야를 용이하게하는 여러 옵션이 있지만 데이터 파이프 라인간에 공통점이 너무 많아 데이터 수집, 저장 및 변환을위한 별도의 도구를 사용하지 않습니다. 워크로드. 사내 기계 학습 도구를 사용하여 데이터 엔지니어링에서 발생하는 사일로를 제거하고 데이터 과학 실무의 구성 요소를 제공하는 모델을 제공하는 최신 데이터 과학 스택을 구축 할 수 있습니다. 위치.

바이오 : 닉 아코 스타 Fivetran의 개발자 옹호자이자 데이터 과학자이며 Purdue University와 University of Southern California에서 컴퓨터 과학을 전공했습니다. Fivetran은 데이터 수집을 자동화하며 Amazon, Databricks, Google 및 Snowflake를 포함하여이 기사에 나열된 여러 조직과 기술 파트너가되어 기쁩니다.

관련 :

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.kdnuggets.com/2021/06/in-warehouse-machine-learning-modern-data-science-stack.html

spot_img

최신 인텔리전스

spot_img