Logotip Zephyrnet

Amazon DataZone napoveduje integracijo s hibridnim načinom dostopa AWS Lake Formation za AWS Glue Data Catalog | Spletne storitve Amazon

Datum:

Prejšnji teden smo objavili splošno razpoložljivost integracije med Amazon DataZone in Oblikovanje jezera AWS hibridni način dostopa. V tej objavi delimo, kako vam ta nova funkcija pomaga poenostaviti način uporabe Amazon DataZone, da omogočite varno in nadzorovano skupno rabo vaših podatkov v AWS lepilo Katalog podatkov. Poglobili smo se tudi v to, kako lahko proizvajalci podatkov delijo svoje tabele AWS Glue prek Amazon DataZone, ne da bi jih morali najprej registrirati v Lake Formation.

Pregled integracije Amazon DataZone s hibridnim načinom dostopa Lake Formation

Amazon DataZone je popolnoma upravljana storitev upravljanja podatkov za katalogiziranje, odkrivanje, analizo, skupno rabo in upravljanje podatkov med proizvajalci podatkov in potrošniki v vaši organizaciji. Z Amazon DataZone proizvajalci podatkov napolnijo katalog poslovnih podatkov s podatkovnimi sredstvi iz podatkovnih virov, kot sta AWS Glue Data Catalog in Amazon RedShift. Svoja sredstva obogatijo tudi s poslovnim kontekstom, da jih uporabniki podatkov enostavno razumejo. Ko so podatki na voljo v katalogu, lahko uporabniki podatkov, kot so analitiki in podatkovni znanstveniki, iščejo in dostopajo do teh podatkov tako, da zahtevajo naročnino. Ko je zahteva odobrena, lahko Amazon DataZone samodejno omogoči dostop do podatkov z upravljanjem dovoljenj v Lake Formation ali Amazon Redshift, tako da lahko uporabnik podatkov začne poizvedovati po podatkih z orodji, kot je npr. Amazonska Atena ali Amazon Redshift.

Za upravljanje dostopa do podatkov v katalogu podatkov AWS Glue Amazon DataZone uporablja Lake Formation. Če ste prej želeli uporabiti Amazon DataZone za upravljanje dostopa do svojih podatkov v katalogu podatkov AWS Glue, ste morali svoje podatke najprej vkrcati v Lake Formation. Zdaj integracija hibridnega načina dostopa Amazon DataZone in Lake Formation poenostavlja, kako lahko začnete s potovanjem Amazon DataZone, tako da vam ni treba najprej vkrcati podatkov v Lake Formation.

Nastanek jezera hibridni način dostopa vam omogoča, da začnete upravljati dovoljenja za svoje baze podatkov in tabele AWS Glue prek Lake Formation, medtem ko nadaljujete z vzdrževanjem vseh obstoječih AWS upravljanje identitete in dostopa (IAM) za te tabele in baze podatkov. Hibridni način dostopa Lake Formation podpira dve poti dovoljenj za iste baze podatkov in tabele kataloga podatkov:

  • Na prvi poti vam Lake Formation omogoča, da izberete določene principale (prijavilne principale) in jim podelite dovoljenja Lake Formation za dostop do baz podatkov in tabel, tako da se odločite za
  • Druga pot omogoča vsem drugim principalom (ki niso dodani kot opt-in principali) dostop do teh virov prek pravilnikov principala IAM za Preprosta storitev shranjevanja Amazon (Amazon S3) in dejanja AWS Glue

Z integracijo med Amazon DataZone in načinom hibridnega dostopa Lake Formation, če imate tabele v AWS Glue Data Catalog, ki se upravljajo prek pravilnikov, ki temeljijo na IAM, lahko te tabele objavite neposredno v Amazon DataZone, ne da bi jih registrirali v Lake Formation. Amazon DataZone registrira lokacijo teh tabel v Lake Formation z uporabo hibridnega načina dostopa, ki omogoča upravljanje dovoljenj na tabelah AWS Glue prek Lake Formation, medtem ko še naprej ohranja vsa obstoječa dovoljenja IAM.

Amazon DataZone vam omogoča objavo katere koli vrste sredstev v katalogu poslovnih podatkov. Za nekatera od teh sredstev lahko Amazon DataZone samodejno upravlja odobritve dostopa. Ta sredstva se imenujejo upravljanih sredstev, in vključujejo tabele Data Catalog, ki jih upravlja Lake Formation, ter tabele in poglede Amazon Redshift. Pred to integracijo ste morali opraviti naslednje korake, preden je Amazon DataZone lahko obravnaval objavljeno tabelo Data Catalog kot upravljano sredstvo:

  1. Identificirajte lokacijo Amazon S3, povezano s tabelo Data Catalog.
  2. Registrirajte lokacijo Amazon S3 z Lake Formation v načinu hibridnega dostopa z uporabo a Vloga z ustreznimi dovoljenji.
  3. Objavite metapodatke tabele v katalogu poslovnih podatkov Amazon DataZone.

Naslednji diagram ponazarja ta potek dela.

Z integracijo Amazon DataZone s hibridnim načinom dostopa Lake Formation lahko preprosto objavite svoje tabele AWS Glue v Amazon DataZone, ne da bi vam bilo treba skrbeti za registracijo lokacije Amazon S3 ali dodajanje opt-in principala v Lake Formation, tako da te korake prenesete na Amazon DataZone. . Skrbnik računa AWS lahko omogoči nastavitev registracije lokacije podatkov pod DefaultDataLake načrt na konzoli Amazon DataZone. Zdaj lahko lastnik podatkov ali izdajatelj objavi svojo tabelo AWS Glue (upravljano prek dovoljenj IAM) v Amazon DataZone brez dodatnih korakov nastavitve. Ko se porabnik podatkov naroči na to tabelo, Amazon DataZone registrira lokacije tabele Amazon S3 v načinu hibridnega dostopa, doda vlogo IAM porabnika podatkov kot privolitvenega principala in odobri dostop do iste vloge IAM z upravljanjem dovoljenj na tabela skozi Lake Formation. To zagotavlja, da lahko dovoljenja IAM v tabeli soobstajajo z na novo podeljenimi dovoljenji Lake Formation, ne da bi motili obstoječe poteke dela. Naslednji diagram ponazarja ta potek dela.

Pregled rešitev

Za predstavitev te nove zmožnosti uporabljamo vzorčni scenarij stranke, kjer želi finančna ekipa dostopati do podatkov v lasti prodajne ekipe za finančno analizo in poročanje. Prodajna ekipa ima cevovod, ki ustvarja nabor podatkov, ki vsebuje dragocene informacije o prodaji vstopnic, priljubljenih dogodkih, prizoriščih in letnih časih. Imenujemo ga nabor podatkov tickit. Prodajna ekipa shrani ta nabor podatkov v Amazon S3 in ga registrira v bazi podatkov v katalogu podatkov. Dostop do te tabele se trenutno upravlja z dovoljenji, ki temeljijo na IAM. Vendar pa želi prodajna ekipa to tabelo objaviti v Amazon DataZone, da bi olajšala varno in nadzorovano skupno rabo podatkov s finančno ekipo.

Koraki za konfiguracijo te rešitve so naslednji:

  1. Skrbnik Amazon DataZone omogoči nastavitev registracije lokacije podatkovnega jezera v Amazon DataZone za samodejno registracijo lokacije Amazon S3 tabel AWS Glue v načinu hibridnega dostopa Lake Formation.
  2. Ko je v Amazon DataZone omogočena integracija hibridnega načina dostopa, finančna ekipa zahteva naročnino na sredstvo prodajnih podatkov. Sredstvo se prikaže kot upravljano sredstvo, kar pomeni, da lahko Amazon DataZone upravlja dostop do tega sredstva, tudi če lokacija Amazon S3 tega sredstva ni registrirana v Lake Formation.
  3. Prodajna ekipa je obveščena o zahtevi za naročnino, ki jo vloži finančna ekipa. Pregledajo in odobrijo zahtevo za dostop. Ko je zahteva odobrena, Amazon DataZone izpolni zahtevo za naročnino z upravljanjem dovoljenj v Lake Formation. Registrira lokacijo Amazon S3 naročene tabele v hibridnem načinu Lake Formation.
  4. Finančna ekipa pridobi dostop do nabora podatkov o prodaji, ki je potreben za njihova finančna poročila. Lahko gredo v svoje okolje DataZone in začnejo izvajati poizvedbe z uporabo Athene za svoj naročeni nabor podatkov.

Predpogoji

Če želite slediti korakom v tej objavi, potrebujete račun AWS. Če nimate računa, lahko ustvarite. Poleg tega morate imeti v računu konfigurirane naslednje vire:

  • Žlica S3
  • Baza podatkov in pajek AWS Glue
  • Vloge IAM za različne osebe in storitve
  • Domena in projekt Amazon DataZone
  • Profil in okolje okolja Amazon DataZone
  • Vir podatkov Amazon DataZone

Če teh virov še nimate konfiguriranih, jih lahko ustvarite tako, da uvedete naslednje Oblikovanje oblaka AWS sklad:

  1. Izberite Izstrelite sklad za uvedbo predloge CloudFormation.
  2. Dokončajte korake za uvedbo predloge in pustite vse nastavitve privzete.
  3. Izberite Priznavam, da lahko AWS CloudFormation ustvari vire IAM, nato izberite Prijave se.

Ko je uvedba CloudFormation končana, se lahko prijavite na portal Amazon DataZone in ročno sprožite zagon vira podatkov. To potegne vse nove ali spremenjene metapodatke iz vira in posodobi povezana sredstva v inventarju. Ta vir podatkov je bil konfiguriran za samodejno objavo podatkovnih sredstev v katalogu.

  1. Na konzoli Amazon DataZone izberite Ogled domen.

Prijaviti se morate z isto vlogo, ki se uporablja za uvajanje CloudFormation, in preveriti, ali ste v isti regiji AWS.

  1. Poiščite domeno blog_dz_domain, nato izberite Odprti podatkovni portal.
  2. Izberite Prebrskaj vse projekte In izberite Projekt prodajnega proizvajalca.
  3. o datum izberite jeziček Viri podatkov v podoknu za krmarjenje.
  4. Poiščite in izberite vir podatkov, ki ga želite zagnati.

S tem se odpre stran s podrobnostmi o viru podatkov.

  1. Izberite meni z možnostmi (tri navpične pike) poleg tickit_datasource In izberite Run.

Stanje vira podatkov se spremeni v Teče, ko Amazon DataZone posodobi metapodatke sredstva.

Omogoči integracijo hibridnega načina v Amazon DataZone

V tem koraku gre skrbnik Amazon DataZone skozi postopek omogočanja integracije Amazon DataZone s hibridnim načinom dostopa Lake Formation. Izvedite naslednje korake:

  1. Na ločenem zavihku brskalnika odprite konzolo Amazon DataZone.

Preverite, ali ste v isti regiji, kjer ste uvedli predlogo CloudFormation.

  1. Izberite Ogled domen.
  2. Izberite domeno, ki jo je ustvaril AWS CloudFormation, blog_dz_domain.
  3. Pomaknite se navzdol po strani s podrobnostmi o domeni in izberite Načrti tab.

A načrt določa, katera orodja in storitve AWS je mogoče uporabiti s podatkovnimi sredstvi, objavljenimi v Amazon DataZone. The DefaultDataLake blueprint je omogočen kot del uvajanja sklada CloudFormation. Ta načrt vam omogoča ustvarjanje in poizvedovanje po tabelah AWS Glue z uporabo Athene. Za korake za omogočanje tega v svojih umestitvah glejte Omogočite vgrajene načrte v računu AWS, ki je lastnik domene Amazon DataZone.

  1. Izberite DefaultDataLake načrt.
  2. o Provisioning izberite jeziček Uredi.
  3. Izberite Omogočite Amazon DataZone za registracijo lokacij S3 z uporabo hibridnega načina dostopa AWS Lake Formation.

Imate možnost izključitve določenih lokacij Amazon S3, če ne želite, da jih Amazon DataZone samodejno registrira v način hibridnega dostopa Lake Formation.

  1. Izberite Shrani spremembe.

Zahtevaj dostop

V tem koraku se prijavite v Amazon DataZone kot finančna ekipa, poiščete sredstvo podatkov o prodaji in se nanj naročite. Izvedite naslednje korake:

  1. Vrnite se na zavihek brskalnika podatkovnega portala Amazon DataZone.
  2. Preklopite na projekt finančnega potrošnika tako, da izberete spustni meni poleg imena projekta in izberete Finance potrošniški projekt.

Od tega koraka naprej prevzamete osebnost uporabnika financ, ki se želi naročiti na podatkovno sredstvo, objavljeno v prejšnjem koraku.

  1. V iskalni vrstici poiščite in izberite sales podatkovno sredstvo.
  2. Izberite Prijavi se.

Sredstvo se prikaže kot upravljano sredstvo. To pomeni, da lahko Amazon DataZone odobri dostop do tega podatkovnega sredstva projektu finančne ekipe z upravljanjem dovoljenj v Lake Formation.

  1. Vnesite razlog za zahtevo za dostop in izberite Prijavi se.

Odobri zahtevo za dostop

Prodajna ekipa prejme obvestilo, da je oddana zahteva za dostop s strani finančne ekipe. Če želite odobriti zahtevo, izvedite naslednje korake:

  1. Izberite spustni meni poleg imena projekta in izberite Projekt prodajnega proizvajalca.

Zdaj prevzamete osebnost prodajne ekipe, ki je lastnik in skrbnik sredstev prodajnih podatkov.

  1. Izberite ikono za obvestila v zgornjem desnem kotu portala DataZone.
  2. Izberite Zahteva za naročnino je ustvarjena naloga.
  3. Dovolite dostop do sredstva podatkov o prodaji finančni skupini in izberite Odobriti.

Analizirajte podatke

Finančna ekipa je zdaj dobila dostop do podatkov o prodaji in ta nabor podatkov je bil v njihovem okolju Amazon DataZone. Lahko dostopajo do okolja in povprašujejo po naboru podatkov o prodaji z Atheno, skupaj z drugimi nabori podatkov, ki jih trenutno imajo. Izvedite naslednje korake:

  1. V spustnem meniju izberite Finance potrošniški projekt.

V desnem podoknu zaslona s pregledom projekta lahko najdete seznam aktivnih okolij, ki so na voljo za uporabo.

  1. Izberite okolje Amazon DataZone finance_dz_environment.
  2. V podoknu za krmarjenje pod Podatkovna sredstva, izberite Naročen.
  3. Preverite, ali ima vaše okolje zdaj dostop do podatkov o prodaji.

Lahko traja nekaj minut, da se podatkovno sredstvo samodejno doda v vaše okolje.

  1. Izberite ikono novega zavihka za Podatki poizvedbe.

Odpre se nov zavihek z urejevalnikom poizvedb Athena.

  1. za Baze podatkov, izberite finance_consumer_db_tickitdb-<suffix>.

Ta zbirka podatkov bo vsebovala vaša naročena podatkovna sredstva.

  1. Ustvarite predogled prodajne tabele tako, da izberete meni z možnostmi (tri navpične pike) in izberete Predogled tabele.

Čiščenje

Za čiščenje virov izvedite naslednje korake:

  1. Preklopite nazaj na skrbniško vlogo, ki ste jo uporabili za uvajanje sklada CloudFormation.
  2. Na konzoli Amazon DataZone, izbrisati projekte uporabljen v tej objavi. S tem boste izbrisali večino predmetov, povezanih s projektom, kot so podatkovna sredstva in okolja.
  3. Na konzoli AWS CloudFormation izbrišite sklad, ki ste ga namestili na začetku te objave.
  4. Na konzoli Amazon S3 izbrišite vedra S3, ki vsebujejo nabor podatkov tickit.
  5. Na konzoli Lake Formation izbrišite skrbnike Lake Formation, ki jih je registriral Amazon DataZone.
  6. Na konzoli Lake Formation izbrišite tabele in baze podatkov, ki jih je ustvaril Amazon DataZone.

zaključek

V tej objavi smo razpravljali o tem, kako integracija med Amazon DataZone in načinom hibridnega dostopa Lake Formation poenostavlja postopek za začetek uporabe Amazon DataZone za upravljanje vaših podatkov od konca do konca v katalogu podatkov AWS Glue. Ta integracija vam pomaga obiti ročne korake vkrcanja v Lake Formation, preden lahko začnete uporabljati Amazon DataZone.

Za več informacij o tem, kako začeti uporabljati Amazon DataZone, glejte Vodnik za začetek. Oglejte si YouTube seznam predvajanja za nekaj najnovejših predstavitev Amazon DataZone in kratke opise razpoložljivih zmogljivosti. Za več informacij o Amazon DataZone glejte Kako Amazon DataZone pomaga strankam najti vrednost v oceanih podatkov.


O avtorjih

Utkarsh Mittal je višji tehnični produktni vodja za Amazon DataZone pri AWS. Navdušen je nad ustvarjanjem inovativnih izdelkov, ki strankam poenostavijo analitično pot od konca do konca. Zunaj tehnološkega sveta Utkarsh rad igra glasbo, pri čemer so bobni njegov zadnji podvig.

Praveen Kumar je glavni arhitekt analitičnih rešitev pri AWS s strokovnim znanjem in izkušnjami pri načrtovanju, gradnji in implementaciji sodobnih podatkovnih in analitičnih platform z uporabo storitev, osredotočenih na oblak. Področja njegovih interesov so brezstrežniška tehnologija, sodobna podatkovna skladišča v oblaku, pretakanje in generativne aplikacije AI.

Paul Villena je višji arhitekt za analitične rešitve v AWS s strokovnim znanjem in izkušnjami pri gradnji sodobnih podatkovnih in analitičnih rešitev za povečanje poslovne vrednosti. Sodeluje s strankami, da bi jim pomagal izkoristiti moč oblaka. Njegova področja zanimanja so infrastruktura kot koda, brezstrežniške tehnologije in kodiranje v Pythonu

spot_img

Najnovejša inteligenca

spot_img