Logo Zephyrnet

Itọsọna si Iṣilọ lati Databricks Delta Lake si Apache Iceberg

ọjọ:

ifihan

Ni awọn sare iyipada aye ti nla ṣiṣe data ati awọn atupale, iṣakoso ti o pọju ti awọn iwe-ipamọ ti o pọju n ṣiṣẹ gẹgẹbi ọwọn ipilẹ fun awọn ile-iṣẹ fun ṣiṣe awọn ipinnu alaye. O ṣe iranlọwọ fun wọn lati yọ awọn oye to wulo lati inu data wọn. Orisirisi awọn solusan ti farahan ni awọn ọdun diẹ sẹhin, gẹgẹbi Databricks Delta Lake ati Apache Iceberg. Awọn iru ẹrọ wọnyi ni idagbasoke fun iṣakoso adagun data ati awọn mejeeji nfunni awọn ẹya ti o lagbara ati awọn iṣẹ ṣiṣe. Ṣugbọn fun awọn ile-iṣẹ o jẹ dandan lati loye awọn nuances ni awọn ofin ti faaji, imọ-ẹrọ ati awọn aaye iṣẹ ṣiṣe fun lilọ kiri pẹpẹ ti o wa tẹlẹ. Nkan yii yoo ṣawari ilana eka ti iyipada lati Databricks Delta Lake si Apache Iceberg.

Awọn Ero ẹkọ

  • Loye awọn ẹya ti Databricks ati Apache Iceberg.
  • Kọ ẹkọ lati ṣe afiwe awọn paati ayaworan laarin Databricks ati Apache Iceberg.
  • Loye awọn iṣe ti o dara julọ fun iṣikiri ile faaji adagun delta lati ṣii pẹpẹ orisun bii Iceberg.
  • Lati lo awọn irinṣẹ ẹnikẹta miiran bi yiyan si pẹpẹ adagun delta.

Nkan yii ni a tẹjade gẹgẹbi apakan ninu Data Imọ Blogathon.

Atọka akoonu

Oye Databricks Delta Lake

Databricks Delta Lake jẹ besikale kan fafa Layer ti ipamọ itumọ ti lori oke ti Agbejade Afun ilana. O nfunni diẹ ninu awọn iṣẹ ṣiṣe data ode oni ti o dagbasoke fun iṣakoso data ailopin. Delta Lake ni awọn ẹya oriṣiriṣi ni ipilẹ rẹ:

  • ACID lẹkọ: Delta Lake ṣe iṣeduro awọn ilana ipilẹ ti Atomity, Aitasera, Ipinya, ati Agbara fun gbogbo awọn iyipada ninu data olumulo, nitorinaa ṣe idaniloju awọn iṣẹ ṣiṣe data to lagbara ati ti o wulo.
  • Itankalẹ eto: Ni irọrun wa bori pẹlu Adagun Delta, nitori ti o seamlessly atilẹyin itankalẹ eto bayi muu awọn ile ise lati gbe jade erokero ayipada lai disturbing tẹlẹ data pipelines ni gbóògì.
  • Aago Oro: Gẹgẹ bii irin-ajo akoko ni awọn fiimu sci-fi, adagun delta n pese agbara lati beere awọn aworan fọto data ni awọn aaye kan pato ni akoko. Nitorinaa o pese awọn olumulo lati jinlẹ sinu itupalẹ itan itankalẹ ti data ati awọn agbara ikede.
  • Iṣapeye Oluṣakoso faili: Delta Lake ṣe atilẹyin awọn ilana to lagbara fun siseto ati ṣiṣakoso awọn faili data ati metadata. O ṣe abajade iṣẹ ṣiṣe iṣapeye ati idinku awọn idiyele ibi ipamọ.

Awọn ẹya ara ẹrọ ti Apache Iceberg

Apache Iceberg n pese yiyan ifigagbaga fun awọn ile-iṣẹ ti n wa ojutu iṣakoso adagun data imudara. Icebergs lu diẹ ninu awọn ọna kika ibile gẹgẹbi Parquet tabi ORC. Awọn anfani pataki pupọ wa:

  • Itankalẹ eto: Olumulo le lo ẹya-ara itankalẹ ero-ọrọ lakoko ti o n ṣe awọn iyipada ero-ọrọ laisi awọn atunkọ tabili gbowolori.
  • Iyasọtọ aworanIceberg n pese atilẹyin fun ipinya aworan, nitorinaa ṣe iṣeduro awọn kika ati kikọ deede. O dẹrọ awọn iyipada nigbakanna ninu awọn tabili laisi ibajẹ iduroṣinṣin data.
  • Iṣakoso Metadata: Ẹya yii ni ipilẹ ya awọn metadata lati awọn faili data. Ki o si tọju rẹ ni ibi-ipamọ iyasọtọ eyiti o yatọ si awọn faili data funrararẹ. O ṣe bẹ lati ṣe alekun iṣẹ ṣiṣe ati fi agbara mu awọn iṣẹ metadata to munadoko.
  • Pruning ipin: Gbigbe awọn ilana imupese ti ilọsiwaju, o mu iṣẹ ṣiṣe ṣiṣẹ pọ si nipa idinku data ti a ṣayẹwo lakoko ipaniyan ibeere.

Ifiwera Analysis of Architectures

Jẹ ki a jinle si igbekale afiwera ti awọn faaji:

Databricks Delta Lake Architecture

  • Layer ipamọ: Delta Lake lo anfani ti ibi ipamọ awọsanma fun apẹẹrẹ Amazon S3, Azure Blob bi awọn oniwe-abele Layer ti ipamọ , eyi ti o oriširiši ti awọn mejeeji data awọn faili ati idunadura àkọọlẹ.
  • Iṣakoso MetadataMetadata duro laarin akọọlẹ idunadura kan. Nitorinaa o nyorisi awọn iṣẹ ṣiṣe metadata daradara ati iṣeduro aitasera data.
  • Awọn ilana ti o dara ju: Delta Lake nlo awọn toonu ti iṣapeye imuposi. O pẹlu fifo data ati pipaṣẹ Z lati mu iṣẹ ṣiṣe ibeere pọ si ati idinku oke lakoko ṣiṣe ọlọjẹ data naa.
Databricks Delta Lake Architecture

Apache Iceberg Architecture

  • Iyapa ti Metadata: Nibẹ ni a iyato pẹlu lafiwe pẹlu Awọn iwe data ni awọn ofin ti yiya sọtọ metadata lati awọn faili data. Igi yinyin n tọju metadata sinu ibi ipamọ ọtọtọ lati awọn faili data.
  • Idunadura Support: Fun idaniloju iduroṣinṣin data ati igbẹkẹle, Iceberg ṣe agbega ilana idunadura to lagbara kan. Ilana yii ṣe iṣeduro atomiki ati awọn iṣẹ tabili deede.
  • ibamu: Awọn ẹrọ bii Apache Spark, Flink ati Presto wa ni ibamu ni imurasilẹ pẹlu Iceberg. Awọn olupilẹṣẹ naa ni irọrun lati lo Iceberg pẹlu akoko gidi ati awọn ilana ṣiṣe ipele.
Apache Iceberg Architecture

Lilọ kiri Oju-ilẹ Iṣilọ: Awọn ero ati Awọn iṣe ti o dara julọ

O nilo iye nla ti igbero ati ipaniyan lati ṣe imuse ijira lati Databricks Delta Lake si Apache Iceberg. Diẹ ninu awọn ero yẹ ki o ṣe eyi ti o jẹ:

  • Itankalẹ eto: Ṣe iṣeduro ibaramu ailabawọn laarin ẹya itankalẹ ero ti Delta Lake ati Iceberg lati tọju aitasera lakoko awọn ayipada ero.
  • Iṣilọ data: Awọn ilana yẹ ki o wa ni idagbasoke ati ni aaye pẹlu awọn okunfa gẹgẹbi iwọn didun ti data, awọn ibeere akoko idaduro, ati aitasera data.
  • Ibamu ibeere: Ẹnikan yẹ ki o ṣayẹwo nipa ibamu ibeere laarin Delta Lake ati Iceberg. Yoo yorisi iyipada didan ati iṣẹ ṣiṣe ibeere ti o wa yoo tun jẹ aiṣedeede lẹhin iṣiwa.
  • Performance HIV: Bẹrẹ iṣẹ ṣiṣe lọpọlọpọ ati awọn idanwo ipadasẹhin lati ṣayẹwo iṣẹ ṣiṣe ibeere naa. Lilo awọn orisun yẹ ki o tun ṣayẹwo laarin Iceberg ati Delta Lake. Ni ọna yẹn, awọn agbegbe ti o pọju le jẹ idanimọ fun iṣapeye.

Fun awọn olupilẹṣẹ ijira le lo diẹ ninu awọn egungun koodu asọye tẹlẹ lati Iceberg ati awọn iwe aṣẹ databricks ati imuse kanna. Awọn igbesẹ ti mẹnuba ni isalẹ ati ede ti a lo nibi ni Scala:

Igbesẹ 1: Ṣẹda Tabili Lake Delta

Ni igbesẹ akọkọ, rii daju pe garawa S3 ti ṣofo ati rii daju ṣaaju tẹsiwaju lati ṣẹda data laarin rẹ. Ni kete ti ilana ẹda data ti pari, ṣe ayẹwo atẹle:

Igbesẹ 1: Ṣẹda Tabili Lake Delta
val data=spark.range(0,5)
data.write.format("delta").save("s3://testing_bucket/delta-table")

spark.read.format("delta").load("s3://testing_bucket/delta-table")
Ṣẹda Delta Lake Table
Ṣẹda Delta Lake Table

Nfi koodu igbale iyan kun

#adding optional code for vaccum later
val data=spark.range(5,10)
data.write.format("delta").mode("overwrite").save("s3://testing_bucket/delta-table")

Step2: CTAS ati Kika Delta Lake Table

#reading delta lake table
spark.read.format("delta").load("s3://testing_bucket/delta-table")

Igbesẹ 3: Kika Delta Lake ati Kọ si Tabili Iceberg

val df_delta=spark.read.format("delta").load("s3://testing_bucket/delta-table")
df_delta.writeTo("test.db.iceberg_ctas").create()
spark.read.format("iceberg").load("test.db.iceberg.ctas)

Daju data ti a da silẹ si awọn tabili yinyin labẹ S3

Kika Delta Lake ati Kọ si Iceberg Table
Kika Delta Lake ati Kọ si Iceberg Table

Ṣe afiwe awọn irinṣẹ ẹnikẹta ni awọn ofin ti ayedero, iṣẹ ṣiṣe, ibaramu ati atilẹyin. Awọn irinṣẹ meji ie. AWS Glue DataBrew ati Snowflake wa pẹlu eto iṣẹ ṣiṣe tiwọn.

AWS Lẹ pọ DataBrew

Ilana Iṣilọ:

  • Ease ti Lo: AWS Glue DataBrew jẹ ọja labẹ awọsanma AWS ati pese iriri ore-olumulo fun sisọ data ati awọn iṣẹ-ṣiṣe iyipada.
  • Integration: Lẹ pọ DataBrew le ti wa ni seamlessly ese pẹlu miiran Amazon awọsanma iṣẹ. Fun awọn ajo ti n ṣiṣẹ pẹlu AWS le lo iṣẹ yii.

Eto Ẹya:

  • Iyipada data: O wa pẹlu eto nla ti awọn ẹya fun iyipada data (EDA). O le wa ni ọwọ lakoko ijira data.
  • Iforukọsilẹ aifọwọyi: Bii awọn irinṣẹ orisun ṣiṣi miiran, DataBrew data profaili laifọwọyi. lati ṣawari eyikeyi aiṣedeede ati tun ṣeduro awọn iṣẹ-ṣiṣe iyipada.

Iṣe ati Ibamu:

  • scalability: Fun sisẹ awọn ipilẹ data nla ti o le ṣe alabapade lakoko ilana iṣiwa, Glue DataBrew n pese iwọn lati mu iyẹn naa daradara.
  • ibamu: O pese ibamu pẹlu eto ti o gbooro ti awọn ọna kika ati awọn orisun data, nitorinaa dẹrọ iṣọpọ pẹlu ọpọlọpọ awọn solusan ipamọ.

Snowflake

Ilana Iṣilọ:

  • Irọrun Iṣilọ: Fun ayedero , Snowflake ṣe ni awọn iṣẹ ijira eyiti o ṣe iranlọwọ fun awọn olumulo ipari lati gbe lati awọn ile itaja data ti o wa tẹlẹ si pẹpẹ Snowflake.
  • Okeerẹ Iwe: Snowflake n pese awọn iwe ti o pọju ati iye awọn ohun elo lati bẹrẹ pẹlu ilana ijira.

Eto Ẹya:

  • Data Warehousing Agbara: O pese eto ti o gbooro ti awọn ẹya ibi ipamọ, ati pe o ni atilẹyin fun data ti a ṣeto ni agbedemeji, pinpin data, ati iṣakoso data.
  • Idapọ: Awọn faaji awọn iyọọda ga concurrency eyi ti o jẹ o dara fun ajo pẹlu demanding data processing awọn ibeere.

Iṣe ati Ibamu:

  • Performance: Snowflake tun jẹ iṣẹ ṣiṣe daradara ni awọn ofin ti scalability eyiti o jẹ ki awọn olumulo ipari lati ṣe ilana awọn iwọn data nla pẹlu irọrun.
  • ibamuSnowflake tun pese ọpọlọpọ awọn asopọ fun oriṣiriṣi awọn orisun data, nitorinaa ṣe iṣeduro ibamu agbelebu pẹlu awọn ilolupo data oriṣiriṣi.
"

ipari

Lati mu adagun data pọ si ati ṣiṣan ṣiṣakoso iṣakoso ile itaja ati lati yọkuro awọn abajade iṣowo, iyipada jẹ pataki fun awọn ajọ naa. Awọn ile-iṣẹ le lo awọn iru ẹrọ mejeeji ni awọn ofin ti awọn agbara ati ayaworan ati awọn iyatọ imọ-ẹrọ ati pinnu kini lati yan lati lo agbara ti o pọju ti awọn eto data wọn. O ṣe iranlọwọ fun awọn ajo ni igba pipẹ bi daradara. Pẹlu yiyiyi ati iyara iyipada ala-ilẹ data, awọn solusan imotuntun le jẹ ki awọn ajo wa ni eti.

Awọn Iparo bọtini

  • Apache Iceberg n pese awọn ẹya ikọja bii ipinya aworan, iṣakoso metadata to munadoko, gige ipin nitorinaa o yori si imudarasi awọn agbara iṣakoso adagun data.
  • Iṣilọ si Apache Iceberg ṣe pẹlu igbero iṣọra ati ipaniyan. Awọn ile-iṣẹ yẹ ki o gbero awọn nkan bii itankalẹ ero, awọn ilana ijira data, ati ibaramu ibeere.
  • Databricks Delta Lake leverages ibi ipamọ awọsanma bi ipilẹ ibi ipamọ ti o wa labẹ rẹ, titoju awọn faili data ati awọn akọọlẹ idunadura, lakoko ti Iceberg ya sọtọ metadata lati awọn faili data, imudara iṣẹ ṣiṣe ati iwọn.
  • Awọn ile-iṣẹ yẹ ki o tun gbero awọn ilolu inawo gẹgẹbi awọn idiyele ibi ipamọ, awọn idiyele iṣiro, awọn idiyele iwe-aṣẹ, ati eyikeyi awọn orisun ad-hoc ti o nilo fun ijira naa.

Nigbagbogbo bi Ìbéèrè

Q1. Bawo ni ilana ijira lati Databricks Delta Lake si Apache Iceberg ti ṣe?

A. O kan gbigbe data okeere lati Databricks Delta Lake, sọ di mimọ ti o ba jẹ dandan, ati lẹhinna gbe wọle sinu awọn tabili Apache Iceberg.

Q2. Ṣe awọn irinṣẹ adaṣe eyikeyi wa lati ṣe iranlọwọ pẹlu ijira laisi idasi afọwọṣe?

A. Awọn ile-iṣẹ ni gbogbogbo n lo awọn iwe afọwọkọ Python/Scala aṣa ati awọn irinṣẹ ETL lati kọ iṣan-iṣẹ yii.

Q3. Kini awọn ipenija ti o wọpọ ti awọn ajo ba pade lakoko ilana iṣiwa?

A. Diẹ ninu awọn italaya eyiti o ṣee ṣe pupọ lati ṣẹlẹ ni - aitasera data, mimu awọn iyatọ itankalẹ igbekalẹ, ati mimu iṣẹ ṣiṣe dara si lẹhin ijira.

Q4. Kini iyatọ laarin Apache Iceberg ati awọn ọna kika tabili miiran bi Parquet tabi ORC?

A. Apache Iceberg n pese awọn ẹya bii itankalẹ apẹrẹ, ipinya aworan, ati iṣakoso metadata to munadoko eyiti o yatọ si Parquet ati ORC.

Q5. Njẹ a le lo Apache Iceberg pẹlu awọn ojutu ibi ipamọ ti o da lori awọsanma?

A. Ni pato, Apache Iceberg jẹ ibamu pẹlu awọn iṣeduro ibi ipamọ ti o da lori awọsanma ti o wọpọ gẹgẹbi AWS S3, Ibi ipamọ Blob Azure, ati Google Cloud Storage.

Media ti o han ninu nkan yii kii ṣe ohun ini nipasẹ Vidhya atupale ati pe o lo ni lakaye ti Onkọwe.

iranran_img

Titun oye

iranran_img