제퍼넷 로고

Spark를 뒤로하고 Databricks는 2021 IPO를 목표로 새로운 영역에 진입합니다.

시간

인기있는 Apache Spark 데이터 레이크를 중심으로 설립 된 상업 회사 인 Databricks는 IPO 성패 연도에 새로운 클래스 워크로드와 엔터프라이즈 데이터 관리 작업에 대한 파업을 벌이고 있습니다.

회사의 Data + AI Summit의 Hawking 기술 뉴스, CEO Ali Ghodsi는 다음과 같이 말했습니다. 등록 새로운 기술에 대해. Ghodsi는 데이터웨어 하우징에 익숙한 주문 및 SQL 쿼리를 데이터 레이크의 스키마없는 아키텍처와 결합하려는 회사의 노력이 데이터 관리, 분석 및 데이터웨어 하우징 분야의 기존 공급 업체에 대해보다 적극적으로 추진 될 것이라고 말했습니다.

2018에서 통합 분석 개념 출시, Databricks는 머신 러닝 라이프 사이클을 조사하는 고객을 위해이를 홍보했지만이 접근 방식은 충분히 공격적이지 않았습니다.

“우리는 대기업과 데이터웨어 하우스를 화나게하지 않기 위해이 문제를 해결했습니다. 우리는 우리가 크립토나이트에 앉아 있다는 것을 알았고, 그것이 사람들에게 너무 화가 나고 모든 사람에게 너무 경쟁적 일 것이라고 생각했기 때문에 그것을 숨기고있었습니다.”라고 그는 주장했습니다.

Databricks는 컴퓨터 과학자 Matei Zaharia를 포함하여 버클리에서 만난 학자 팀에 의해 2013 년에 공동 설립되었으며, 2009 년에 Spark를 박사 학위 논문으로 개발 한 후 나중에 공동으로 아파치 메소스 클러스터 관리자. Ghodsi는 캘리포니아 대학 기관의 겸임 조교수로 남아 있습니다.

2019년에 Databricks는 Delta Lake를 도입했습니다., 데이터 레이크의 신뢰성 및 주소 지정 문제를 해결하기 위해 설계된 오픈 소스 프로젝트로, "데이터 늪"에 대한 무례한 설명이 관심을 끌었습니다.

그런 다음 작년 XNUMX 월에 Databricks는 "레이크 하우스”를 의심하지 않는 기술 어휘집에 추가했습니다. 이것은 여러분이 짐작할 수 있었던 최고의 데이터웨어 하우스와 데이터 레이크 접근 방식을 결합 할 것이라는 생각을 전달하려는 노력이었습니다.

XNUMX 월을 앞두고 Databricks는 기존 데이터 레이크에 질서와 성능을 제공하는 데 도움이되는 Databricks의 개방형 데이터 엔진 인 Delta Lake를 기반으로 구축 된 SQL Analytics를 출시했습니다. 그것은 또한 사용합니다 델타 엔진, 벡터화를 활용하기 위해 Scala로 작성된 Spark를 C ++로 재 작성하는 "다형성 쿼리 실행 엔진"입니다. Delta Lake 내에서 Databricks는 Spark SQL 워크 플로를 가속화하도록 설계된 Spark 호환 실행 엔진 인 적절한 Photon을 도입했습니다.

“처음부터 이미 가지고있었습니다. 통합 분석이라고했습니다. 기본적으로 모든 분석 (고급 분석, 기본 분석 : SQL)을 통합하십시오. 그러나 그것은 매우 숨겨져 있고 사람들은 그것을 몰랐습니다. Lakehouse는 일종의 똑같은 일이지만 이제는 데이터 레이크와 데이터웨어 하우스가 결합되어 있습니다. AI 용 Lake; BI를위한웨어 하우스를 사용하면 하나의 플랫폼에서 AI와 BI를 최대한 활용할 수 있고 개방형 플랫폼에서 데이터 사본 하나를 얻을 수 있습니다.”라고 Ghodsi는 말했습니다.

데이터 브릭스는 데이터 브릭스가 지난주“낮은 수준의 명령어를 제거하고 많은 잠재적 인 오류 소스를 제거함으로써 Spark의 일반적인 용도 인 ETL을 완화하기위한 델타 라이브 테이블을 추가했습니다.

한편, 업계 표준 ANSI SQL 인 Unity Catalog는 사용자가 Databricks Lakehouse Platform에서 데이터를 한눈에 볼 수 있도록 지원하기 위해 모든 클라우드 데이터 레이크에서 정형 및 비정형 데이터에 모두 액세스 할 수있는 하나의 인터페이스를 제공하도록 설계되었습니다.

Databricks는 Linux Foundation에 기부 될 Delta Sharing이라는 오픈 소스 프로젝트를 시작했습니다. Databricks는 데이터가 상주하는 플랫폼과는 완전히 독립적으로 조직간에 실시간으로 데이터를 안전하게 공유하기위한 세계 최초의 개방형 프로토콜이라고 주장합니다. AWS, Google Cloud, BI 및 시각화 회사 인 Tableau에서 지원합니다.

Gartner 부통령이자 분석가 인 Sanjeev Mohan은 Delta Live Tables가 Databricks의 "왕좌의 보석"이라고 말했습니다. “신뢰할 수있는 데이터 파이프 라인을 생성하는 프로세스를 SQL과 같은 선언적 파이프 라인으로 만듭니다. 목적지를 지정하고 시스템에서 생성되는 기본 코드에 대해 걱정하지 마십시오.”라고 그는 말했습니다.

Unity Catalog는 "데이터 카탈로그가 수년 동안 모든 인기를 얻었 기 때문에"Databricks에서 좋은 움직임이었습니다. 이 벤더는 "기능을 향상시키기위한 매우 야심 찬 로드맵을 가지고 있습니다"라고 Mohan은 말했습니다.

Delta Sharing은 흥미로 웠습니다. 대부분의 기존 데이터 공유 기술은 사용자가 기능에 참여하기 전에 해당 플랫폼에 계정이 있어야하기 때문입니다. "Databricks의 Delta Share는 이러한 요구 사항을 제거합니다."라고 Gartner veep가 말했습니다.

마이크로 소프트와 구글의 제품도 데이터 레이크와웨어 하우스의 세계를 통합하는 것을 목표로하지만 강조하는 데 차이가 있다고 그는 말했다. "일부 제품은 데이터 분석가 페르소나를 목표로하지만 Databricks는 데이터 엔지니어가 더 빠르고 안정적으로 제공 할 수 있도록 지원하는 것을 목표로합니다."라고 그는 말했습니다.

IDC : 사용자를 다른 공급 업체로부터 멀어지게하기가 쉽지 않음

그러나 IDC Europe의 소프트웨어 연구 부 부사장 인 Philip Carnelley는 다음과 같은 기능에 대한 성능 데이터를 공유함으로써 다음과 같이 말했습니다. 동시성, 기존 데이터웨어 하우징 회사가 잘 운영되는 영역 인 Databricks는 시장이 진지한 업체임을 확신시키기 위해 노력했습니다. 그러나 기존 공급 업체에 유리한 관성은 여전히 ​​존재했습니다.

분석가는“Teradata와 같은 것을 30 년 동안 사용 해왔고 그것이 효과가 있다는 것을 알고 있다면 그것은 중요합니다. 가볍게 이탈하지 않을 것입니다.”라고 분석가는 말했습니다.

Databricks는 사용자가 클라우드에 용량을 추가 할 수 있다고 말했지만 항상 비용이 발생합니다. “여기서 흥미로운 것은 성능뿐 아니라 비용 대비 성능입니다. 저는이 세상의 Teradata가 (최적화에있어) 많은 경험을 얻을 수 있기 때문에 확신을 줄 수 있다고 생각합니다.”라고 그는 말했습니다.

Ghodsi는 말했다 등록 올해 "IPO-ready"가되는 것이 회사의 목표였습니다. 중요한 날로의 구축에서 회사는 1 월에 XNUMX 억 달러 투자, AWS, Microsoft, Google, Andreessen Horowitz (Netscape 설립자 Marc Andreessen의 VC 회사) 및 Salesforce Ventures가 참여했습니다.이 과시로 인해 신생 회사의 명목 가치가 28 억 달러로 늘어났습니다.

Databricks는 데이터 레이크 홈에서보다 일반적인 분석 및 BI 기술로 날개를 펼치는 이야기가 시장과 함께 날아갈 이야기가되기를 분명히 바라고 있습니다. ®

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://go.theregister.com/feed/www.theregister.com/2021/06/01/databricks_new_class_workloads/

spot_img

최신 인텔리전스

spot_img