창고 내 머신 러닝 및 최신 데이터 과학 스택

태그 : 아마존 레드 시프트, 통계 분석, BigQuery, 클라우드, 데이터 과학, 데이터웨어 하우스, 기계 학습

조직이 데이터 과학 포트폴리오 및 기능을 성숙함에 따라 이러한 성장을 가능하게하려면 최신 데이터 스택을 구축하는 것이 중요합니다. 여기에서는 다양한인데 이터웨어 하우스 기계 학습 서비스를 개괄적으로 살펴보고 각각의 이점과 요구 사항에 대해 논의합니다.

By 닉 아코 스타, 개발자 옹호자, Alliances, Fivetran.

최신 데이터 스택

데이터 스택 수렴

데이터 분석 및 데이터 과학은 매우 고유 한 분야이지만이를 효과적으로 달성하는 데 사용되는 데이터 처리 단계에는 상당한 중복이 있습니다. 둘 다 중앙 위치에 저장된 대량의 고품질 데이터에 액세스 할 수있을뿐만 아니라 소스에서 이러한 중앙 저장소로 데이터를 가져 오는 효율적이고 신뢰할 수있는 프로세스의 이점을 누릴 수 있습니다. 최근까지 작업은 분석 및 비즈니스 인텔리전스를위한 데이터웨어 하우스, 데이터 과학 및 기계 학습을위한 데이터 레이크로 다양한 분야에 대한 별도의 기술로 복제되었습니다. 많은 새로운 서비스가 이러한 데이터 스택을 단일 환경으로 병합하기 위해 노력하고 있으며이 문서에서는 이러한 서비스에 대한 개요와 데이터 조직에 추가 할 수있는 가치를 제공합니다.

In-Warehouse Machine Learning Services 개요

BigQuery ML 및 Redshift ML

Redshift 대 Bigquery

AWS와 Google Cloud는 최근 데이터웨어 하우스 인 Redshift (왼쪽)와 BigQuery (오른쪽)에 기계 학습 기능을 추가했습니다.

BigQuery ML 및 Redshift ML은 BigQuery 및 Redshift, Google Cloud Platform 및 AWS의 각 데이터웨어 하우스에 머신 러닝 기능을 추가합니다. AWS는 최근에 레드시프트 ML및 빅쿼리 머신러닝 얼마 동안 사용할 수있었습니다.

둘 다 기계 학습 모델을 생성하고 모델 유형, 학습 데이터로 사용할 테이블, 예측을 생성 할 대상 기능과 같은 매개 변수 사양을 허용하는 CREATE MODEL 명령으로 SQL 구문을 확장합니다. 이러한 새로운 SQL 명령은 자동화 된 기계 학습 프로세스를 활용하여 데이터 변환 및 모델 튜닝을 제공하여 후보 모델 중에서 최상의 성능을 식별합니다. 사용자 지정 모델은 각각과 함께 사용할 수 있으며 모델 아키텍처 및 성능에있어 상당한 유연성을 제공하지만 각각 개발에는 약간의 제한이 있습니다. 커스텀 모델은 BigQuery에서 사용할 TensorFlow 모델로 저장해야하며 Redshift ML은 AWS 데이터 과학 개발 플랫폼 SageMaker와 함께 배포 된 모델을 사용해야합니다. 모델을 학습하거나웨어 하우스로 가져 오면 SELECT 문을 FROM과 함께 사용하여 테이블 대신 학습 된 모델을 지정하여 추론을 호출 할 수 있습니다. 그런 다음 사용, 감사 및 사용을 위해웨어 하우스의 예측 테이블에 쉽게 삽입 할 수 있습니다. 오류 분석.

눈송이 및 기타 옵션

눈송이가 말했다 "AI 및 ML의 전체 이니셔티브는 선택한 도구와 인터페이스 할 수 있도록 [데이터웨어 하우스]에 확장 성을 구축하는 것이 었습니다." 앞서 언급 한 AWS의 Sagemaker 플랫폼은 Snowflake가 통합 할 수있는 ML 도구의 예이며 Databricks도 마찬가지입니다. 더 인상적인 개발이 방금 출시 된 Databricks에서 일어나고 있습니다. Delta Lake 버전 1.0.0, 데이터 분석 및 데이터 과학 기술 스택을 반대 방향에서 수렴합니다. 기계 학습 기능을 데이터웨어 하우스에 가져 오는 대신 Delta Lake는 ACID 트랜잭션과 같은 기존 분석 및 비즈니스 인텔리전스 기능을 데이터 레이크에 추가하여 최신 데이터 과학 스택에 유사한 이점을 제공하는 새로운 데이터 레이크 하우스 아키텍처에 추가합니다.

검토

조직이 데이터 분석과 데이터 과학을 모두 수행하는 데 관심이있는 경우 두 가지 분야를 용이하게하는 여러 옵션이 있지만 데이터 파이프 라인간에 공통점이 너무 많아 데이터 수집, 저장 및 변환을위한 별도의 도구를 사용하지 않습니다. 워크로드. 사내 기계 학습 도구를 사용하여 데이터 엔지니어링에서 발생하는 사일로를 제거하고 데이터 과학 실무의 구성 요소를 제공하는 모델을 제공하는 최신 데이터 과학 스택을 구축 할 수 있습니다. 위치.

바이오 : 닉 아코 스타 Fivetran의 개발자 옹호자이자 데이터 과학자이며 Purdue University와 University of Southern California에서 컴퓨터 과학을 전공했습니다. Fivetran은 데이터 수집을 자동화하며 Amazon, Databricks, Google 및 Snowflake를 포함하여이 기사에 나열된 여러 조직과 기술 파트너가되어 기쁩니다.

관련 :

= 이전 포스트

지난 30 일 동안의 주요 기사

가장 인기 많은
Python으로 자동화 할 5 가지 작업 데이터 과학자가되는 방법에 대한 가이드 (단계별 접근 방식) 데이터 과학자들은 10 년 안에 멸종 될 것입니다 Python으로 자동화 된 PDF 문서를 생성하는 방법 데이터 과학 및 기계 학습으로 수입을 두 배로 늘리는 방법

가장 많이 공유 한
데이터 과학자가되는 방법에 대한 가이드 (단계별 접근 방식) 고성능 데이터 과학자를위한 XNUMX 가지 유형의 사고 데이터 과학자들은 10 년 안에 멸종 될 것입니다 Python으로 자동화 할 5 가지 작업 데이터 과학 및 기계 학습으로 수입을 두 배로 늘리는 방법

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.kdnuggets.com/2021/06/in-warehouse-machine-learning-modern-data-science-stack.html

생성 데이터 인텔리전스

창고 내 머신 러닝 및 최신 데이터 과학 스택

창고 내 머신 러닝 및 최신 데이터 과학 스택

데이터 스택 수렴

최신 데이터 과학 스택의 이점

In-Warehouse Machine Learning Services 개요

검토

지난 30 일 동안의 주요 기사

비트코인 대학살: 암호화폐 분석가, 8% 가격 하락 후 '데스 크로스' 발견

AIEMP, 혁신적인 AI 보안 프로젝트 출시 발표

최신 인텔리전스

Pantera Capital의 Fund V, 다양한 블록체인 투자를 위해 1억 달러 목표

국립 가상 기후 연구소는 기후 과학에 대한 가이드입니다 – CleanTechnica

이 반폐쇄형 전기 세발 자전거는 통근을 훨씬 더 즐겁게 만들어 줄 것입니다 – CleanTechnica

메탄 상쇄 제공업체 Zefiro Mthan, Cboe Canada에 상장

비트코인 네 번째 반감기 블록의 희귀한 'Epic Sat'가 2만 달러 이상에 판매됨

Litecoin은 거래자의 양면성으로 인해 범위 내에서 움직입니다.