Logo Zephyrnet

Amazon DataZone anunță integrarea cu modul de acces hibrid AWS Lake Formation pentru Catalogul de date AWS Glue | Amazon Web Services

Data:

Săptămâna trecută, am anunțat disponibilitate generală a integrării dintre Amazon DataZone și Formația lacului AWS modul de acces hibrid. În această postare, vă împărtășim modul în care această nouă funcție vă ajută să simplificați modul în care utilizați Amazon DataZone pentru a permite partajarea sigură și reglementată a datelor dvs. AWS Adeziv Catalog de date. De asemenea, studiem modul în care producătorii de date își pot partaja tabelele AWS Glue prin Amazon DataZone fără a fi nevoie să le înregistreze mai întâi în Lake Formation.

Prezentare generală a integrării Amazon DataZone cu modul de acces hibrid Lake Formation

Amazon DataZone este un serviciu de gestionare a datelor complet gestionat pentru catalogarea, descoperirea, analiza, partajarea și guvernarea datelor între producătorii de date și consumatorii din organizația dvs. Cu Amazon DataZone, producătorii de date populează catalogul de date de afaceri cu active de date din surse de date, cum ar fi AWS Glue Data Catalog și Amazon RedShift. De asemenea, își îmbogățesc activele cu contextul de afaceri pentru a le face ușor de înțeles consumatorilor de date. După ce datele sunt disponibile în catalog, consumatorii de date, cum ar fi analiștii și cercetătorii de date, pot căuta și accesa aceste date solicitând abonamente. Când cererea este aprobată, Amazon DataZone poate furniza automat accesul la date prin gestionarea permisiunilor în Lake Formation sau Amazon Redshift, astfel încât consumatorul de date să poată începe să interogheze datele folosind instrumente precum Amazon Atena sau Amazon Redshift.

Pentru a gestiona accesul la date din Catalogul de date AWS Glue, Amazon DataZone utilizează Lake Formation. Anterior, dacă doreați să utilizați Amazon DataZone pentru gestionarea accesului la datele dvs. din Catalogul de date AWS Glue, mai întâi trebuia să vă integrați datele la Lake Formation. Acum, integrarea modului de acces hibrid Amazon DataZone și Lake Formation simplifică modul în care puteți începe călătoria dvs. Amazon DataZone, eliminând mai întâi nevoia de a vă integra datele în Lake Formation.

Formarea Lacului modul de acces hibrid vă permite să începeți să gestionați permisiunile pentru bazele de date și tabelele dvs. AWS Glue prin Lake Formation, continuând în același timp să mențineți orice Gestionarea identității și accesului AWS (IAM) pentru aceste tabele și baze de date. Modul de acces hibrid Lake Formation acceptă două căi de permisiuni către aceleași baze de date și tabele Data Catalog:

  • În prima cale, Lake Formation vă permite să selectați anumiți directori (principali de înscriere) și să le acordați permisiuni Lake Formation pentru a accesa bazele de date și tabele prin înscrierea în
  • A doua cale permite tuturor celorlalți directori (care nu sunt adăugați ca directori de înscriere) să acceseze aceste resurse prin politicile principale IAM pentru Serviciul Amazon de stocare simplă (Amazon S3) și acțiuni AWS Glue

Cu integrarea dintre Amazon DataZone și modul de acces hibrid Lake Formation, dacă aveți tabele în AWS Glue Data Catalog care sunt gestionate prin politici bazate pe IAM, puteți publica aceste tabele direct în Amazon DataZone, fără a le înregistra în Lake Formation. Amazon DataZone înregistrează locația acestor tabele în Lake Formation folosind modul de acces hibrid, care permite gestionarea permisiunilor pe tabelele AWS Glue prin Lake Formation, menținând în același timp toate permisiunile IAM existente.

Amazon DataZone vă permite să publicați orice tip de activ în catalogul de date de afaceri. Pentru unele dintre aceste active, Amazon DataZone poate gestiona automat acordările de acces. Aceste active sunt numite active administrateși includ tabele Data Catalog gestionate de Lake Formation și tabele și vizualizări Amazon Redshift. Înainte de această integrare, a trebuit să parcurgeți următorii pași înainte ca Amazon DataZone să poată trata tabelul de catalog de date publicat ca un activ gestionat:

  1. Identificați locația Amazon S3 asociată cu tabelul Data Catalog.
  2. Înregistrați locația Amazon S3 cu Lake Formation în modul de acces hibrid folosind a rol cu permisiunile corespunzătoare.
  3. Publicați metadatele tabelului în catalogul de date comerciale Amazon DataZone.

Următoarea diagramă ilustrează acest flux de lucru.

Cu integrarea Amazon DataZone cu modul de acces hibrid Lake Formation, puteți publica pur și simplu tabelele dvs. AWS Glue pe Amazon DataZone fără să vă faceți griji cu privire la înregistrarea locației Amazon S3 sau adăugarea unui principal de înscriere în Lake Formation prin delegarea acestor pași către Amazon DataZone . Administratorul unui cont AWS poate activa setarea de înregistrare a locației datelor sub DefaultDataLake planul pe consola Amazon DataZone. Acum, un proprietar de date sau un editor își poate publica tabelul AWS Glue (gestionat prin permisiunile IAM) pe Amazon DataZone fără pașii suplimentari de configurare. Când un consumator de date se abonează la acest tabel, Amazon DataZone înregistrează locațiile Amazon S3 ale tabelului în modul de acces hibrid, adaugă rolul IAM al consumatorului de date ca principal de înscriere și acordă acces la același rol IAM prin gestionarea permisiunilor pe masa prin Lake Formation. Acest lucru asigură că permisiunile IAM de pe tabel pot coexista cu permisiunile recent acordate Lake Formation, fără a întrerupe fluxurile de lucru existente. Următoarea diagramă ilustrează acest flux de lucru.

Prezentare generală a soluțiilor

Pentru a demonstra această nouă capacitate, folosim un exemplu de scenariu client în care echipa financiară dorește să acceseze datele deținute de echipa de vânzări pentru analiză și raportare financiară. Echipa de vânzări are o conductă care creează un set de date care conține informații valoroase despre vânzările de bilete, evenimente populare, locații și sezoane. Îl numim setul de date tickit. Echipa de vânzări stochează acest set de date în Amazon S3 și îl înregistrează într-o bază de date din Catalogul de date. Accesul la acest tabel este gestionat în prezent prin permisiuni bazate pe IAM. Cu toate acestea, echipa de vânzări dorește să publice acest tabel pe Amazon DataZone pentru a facilita partajarea securizată și guvernată a datelor cu echipa financiară.

Pașii pentru configurarea acestei soluții sunt următorii:

  1. Administratorul Amazon DataZone permite setarea de înregistrare a locației lacului de date în Amazon DataZone pentru a înregistra automat locația Amazon S3 a tabelelor AWS Glue în modul de acces hibrid Lake Formation.
  2. După ce integrarea modului de acces hibrid este activată în Amazon DataZone, echipa financiară solicită un abonament la activul de date de vânzări. Activul apare ca un activ gestionat, ceea ce înseamnă că Amazon DataZone poate gestiona accesul la acest activ chiar dacă locația Amazon S3 a acestui activ nu este înregistrată în Lake Formation.
  3. Echipa de vânzări este notificată cu privire la o cerere de abonament ridicată de echipa financiară. Ei examinează și aprobă cererea de acces. După ce cererea este aprobată, Amazon DataZone îndeplinește cererea de abonare prin gestionarea permisiunilor în Lake Formation. Înregistrează locația Amazon S3 a tabelului abonat în modul hibrid Lake Formation.
  4. Echipa financiară are acces la setul de date de vânzări necesare pentru rapoartele financiare. Ei pot accesa mediul lor DataZone și pot începe să execute interogări folosind Athena pe setul de date la care au abonat.

Cerințe preliminare

Pentru a urma pașii din această postare, aveți nevoie de un cont AWS. Dacă nu ai cont, poți creeaza una. În plus, trebuie să aveți următoarele resurse configurate în contul dvs.:

  • O găleată S3
  • O bază de date AWS Glue și un crawler
  • Roluri IAM pentru diferite persoane și servicii
  • Un domeniu și un proiect Amazon DataZone
  • Un profil și un mediu Amazon DataZone
  • O sursă de date Amazon DataZone

Dacă nu aveți deja aceste resurse configurate, le puteți crea prin implementarea următoarelor Formarea AWS Cloud grămadă:

  1. Alege Lansați Stack pentru a implementa un șablon CloudFormation.
  2. Parcurgeți pașii pentru a implementa șablonul și lăsați toate setările ca implicite.
  3. Selectați Recunosc că AWS CloudFormation ar putea crea resurse IAM, Apoi alegeți Trimite mesaj.

După finalizarea implementării CloudFormation, vă puteți conecta la portalul Amazon DataZone și puteți declanșa manual o execuție a sursei de date. Aceasta extrage orice metadate noi sau modificate din sursă și actualizează activele asociate din inventar. Această sursă de date a fost configurată pentru a publica automat elementele de date în catalog.

  1. Pe consola Amazon DataZone, alegeți Vizualizați domeniile.

Ar trebui să fiți conectat folosind același rol care este utilizat pentru a implementa CloudFormation și să verificați că vă aflați în aceeași regiune AWS.

  1. Găsiți domeniul blog_dz_domain, Apoi alegeți Portal de date deschise.
  2. Alege Răsfoiți toate proiectele Și alegeți Proiect producator de vanzari.
  3. Pe Date fila, alegeți Surse de date în panoul de navigare.
  4. Localizați și alegeți sursa de date pe care doriți să o rulați.

Aceasta deschide pagina cu detaliile sursei de date.

  1. Alegeți meniul de opțiuni (trei puncte verticale) de lângă tickit_datasource Și alegeți Alerga.

Starea sursei de date se schimbă în Running pe măsură ce Amazon DataZone actualizează metadatele materialului.

Activați integrarea modului hibrid în Amazon DataZone

În acest pas, administratorul Amazon DataZone parcurge procesul de activare a integrării Amazon DataZone cu modul de acces hibrid Lake Formation. Parcurgeți următorii pași:

  1. Într-o filă separată de browser, deschideți consola Amazon DataZone.

Verificați că vă aflați în aceeași regiune în care ați implementat șablonul CloudFormation.

  1. Alege Vizualizați domeniile.
  2. Alegeți domeniul creat de AWS CloudFormation, blog_dz_domain.
  3. Derulați în jos pe pagina cu detaliile domeniului și alegeți Planuri tab.

A plan definește ce instrumente și servicii AWS pot fi utilizate cu activele de date publicate în Amazon DataZone. The DefaultDataLake modelul este activat ca parte a implementării stivei CloudFormation. Acest plan vă permite să creați și să interogați tabele AWS Glue folosind Athena. Pentru pașii pentru a activa acest lucru în propriile implementări, consultați Activați planurile încorporate în contul AWS care deține domeniul Amazon DataZone.

  1. Alege DefaultDataLake plan.
  2. Pe provizionare fila, alegeți Editati.
  3. Selectați Permiteți Amazon DataZone să înregistreze locații S3 utilizând modul de acces hibrid AWS Lake Formation.

Aveți opțiunea de a exclude anumite locații Amazon S3 dacă nu doriți ca Amazon DataZone să le înregistreze automat în modul de acces hibrid Lake Formation.

  1. Alege Salvează modificările.

Cere acces

În acest pas, vă conectați la Amazon DataZone ca echipă financiară, căutați activul de date de vânzări și vă abonați la acesta. Parcurgeți următorii pași:

  1. Reveniți la fila browserului dvs. de portal de date Amazon DataZone.
  2. Treceți la proiectul de consumator financiar alegând meniul drop-down de lângă numele proiectului și alegând Finanțați proiectul consumatorilor.

Începând cu acest pas, vă asumați personajul unui utilizator financiar care dorește să se aboneze la un activ de date publicat în pasul anterior.

  1. În bara de căutare, căutați și alegeți sales activ de date.
  2. Alege Mă abonez.

Activul apare ca activ gestionat. Aceasta înseamnă că Amazon DataZone poate acorda acces la acest activ de date pentru proiectul echipei financiare prin gestionarea permisiunilor în Lake Formation.

  1. Introduceți un motiv pentru cererea de acces și alegeți Mă abonez.

Aprobați cererea de acces

Echipa de vânzări primește o notificare că este trimisă o cerere de acces din partea echipei financiare. Pentru a aproba cererea, parcurgeți următorii pași:

  1. Alegeți meniul drop-down de lângă numele proiectului și alegeți Proiect producator de vanzari.

Acum vă asumați personalitatea echipei de vânzări, care sunt proprietarii și administratorii activelor de date de vânzări.

  1. Alegeți pictograma de notificare din colțul din dreapta sus al portalului DataZone.
  2. Alege Solicitarea de abonament a fost creată sarcină.
  3. Acordați acces la activul de date de vânzări echipei financiare și alegeți Aproba.

Analizați datele

Echipa financiară a primit acum acces la datele de vânzări, iar acest set de date a fost în mediul lor Amazon DataZone. Aceștia pot accesa mediul și pot interoga setul de date de vânzări cu Athena, împreună cu orice alte seturi de date pe care le dețin în prezent. Parcurgeți următorii pași:

  1. În meniul derulant, alegeți Finanțați proiectul consumatorilor.

În panoul din dreapta al ecranului de prezentare generală a proiectului, puteți găsi o listă de medii active disponibile pentru utilizare.

  1. Alegeți mediul Amazon DataZone finance_dz_environment.
  2. În panoul de navigare, sub Activele de date, alege Subscris.
  3. Verificați dacă mediul dvs. are acum acces la datele de vânzări.

Poate dura câteva minute pentru ca materialul de date să fie adăugat automat în mediul dvs.

  1. Alegeți pictograma filă nouă pentru Interogați datele.

Se deschide o filă nouă cu editorul de interogări Athena.

  1. Pentru Baza de date, alege finance_consumer_db_tickitdb-<suffix>.

Această bază de date va conține elementele dvs. de date abonate.

  1. Generați o previzualizare a tabelului de vânzări alegând meniul de opțiuni (trei puncte verticale) și alegând Previzualizare tabel.

A curăța

Pentru a curăța resursele, parcurgeți următorii pași:

  1. Reveniți la rolul de administrator pe care l-ați folosit pentru a implementa stiva CloudFormation.
  2. Pe consola Amazon DataZone, sterge proiectele folosit în această postare. Aceasta va șterge majoritatea obiectelor legate de proiect, cum ar fi activele de date și mediile.
  3. Pe consola AWS CloudFormation, ștergeți stiva pe care ați implementat-o ​​la începutul acestei postări.
  4. Pe consola Amazon S3, ștergeți compartimentele S3 care conțin setul de date tickit.
  5. Pe consola Lake Formation, ștergeți administratorii Lake Formation înregistrați de Amazon DataZone.
  6. Pe consola Lake Formation, ștergeți tabele și bazele de date create de Amazon DataZone.

Concluzie

În această postare, am discutat despre modul în care integrarea dintre Amazon DataZone și modul de acces hibrid Lake Formation simplifică procesul de începere a utilizării Amazon DataZone pentru guvernarea end-to-end a datelor dvs. în Catalogul de date AWS Glue. Această integrare vă ajută să ocoliți pașii manuali de îmbarcare la Lake Formation înainte de a începe să utilizați Amazon DataZone.

Pentru mai multe informații despre cum să începeți cu Amazon DataZone, consultați Ghidul începătorului. Check out Lista de redare YouTube pentru unele dintre cele mai recente demonstrații ale Amazon DataZone și scurte descrieri ale capabilităților disponibile. Pentru mai multe informații despre Amazon DataZone, consultați Cum Amazon DataZone îi ajută pe clienți să găsească valoare în oceanele de date.


Despre Autori

Utkarsh Mittal este Senior Technical Product Manager pentru Amazon DataZone la AWS. Este pasionat de construirea de produse inovatoare care simplifică călătoriile de analiză end-to-end ale clienților. În afara lumii tehnologiei, lui Utkarsh îi place să cânte muzică, tobele fiind ultimul său efort.

Praveen Kumar este arhitect principal de soluții de analiză la AWS, cu experiență în proiectarea, construirea și implementarea platformelor moderne de date și analiză folosind servicii centrate pe cloud. Domeniile sale de interes sunt tehnologia fără server, depozitele moderne de date în cloud, streaming și aplicațiile AI generative.

Paul Villena este un arhitect senior de soluții de analiză în AWS, cu experiență în construirea de soluții moderne de date și analiză pentru a genera valoarea afacerii. Lucrează cu clienții pentru a-i ajuta să valorifice puterea cloud-ului. Domeniile sale de interes sunt infrastructura ca cod, tehnologiile fără server și codarea în Python

spot_img

Ultimele informații

spot_img