Zephyrnet-logo

Amazon DataZone kondigt integratie aan met de hybride toegangsmodus AWS Lake Formation voor de AWS Glue Data Catalog | Amazon-webservices

Datum:

Vorige week maakten wij de algemene beschikbaarheid van de integratie tussen Amazon DataZone en AWS Lake-formatie hybride toegangsmodus. In dit bericht delen we hoe deze nieuwe functie u helpt de manier te vereenvoudigen waarop u Amazon DataZone gebruikt, zodat u uw gegevens veilig en beheerd kunt delen in de AWS lijm Gegevenscatalogus. We verdiepen ons ook in hoe dataproducenten hun AWS Glue-tabellen kunnen delen via Amazon DataZone zonder ze eerst in Lake Formation te hoeven registreren.

Overzicht van de Amazon DataZone-integratie met de hybride toegangsmodus van Lake Formation

Amazon DataZone is een volledig beheerde gegevensbeheerservice voor het catalogiseren, ontdekken, analyseren, delen en beheren van gegevens tussen gegevensproducenten en consumenten in uw organisatie. Met Amazon DataZone vullen dataproducenten de zakelijke datacatalogus met data-assets uit databronnen zoals de AWS Glue Data Catalog en Amazon roodverschuiving. Ze verrijken hun assets ook met zakelijke context, zodat dataconsumenten ze eenvoudig kunnen begrijpen. Nadat de data beschikbaar zijn in de catalogus, kunnen dataconsumenten zoals analisten en datawetenschappers deze data zoeken en openen door abonnementen aan te vragen. Wanneer het verzoek wordt goedgekeurd, kan Amazon DataZone automatisch toegang tot de gegevens verlenen door de machtigingen in Lake Formation of Amazon Redshift te beheren, zodat de gegevensconsument kan beginnen met het opvragen van de gegevens met behulp van tools zoals Amazone Athene of Amazon Redshift.

Om de toegang tot gegevens in de AWS Glue Data Catalog te beheren, maakt Amazon DataZone gebruik van Lake Formation. Als u voorheen Amazon DataZone wilde gebruiken voor het beheren van de toegang tot uw gegevens in de AWS Glue Data Catalog, moest u uw gegevens eerst onboarden naar Lake Formation. De integratie van de hybride toegangsmodus van Amazon DataZone en Lake Formation vereenvoudigt nu de manier waarop u aan de slag kunt gaan met uw Amazon DataZone-traject, doordat u de noodzaak wegneemt om uw gegevens eerst aan Lake Formation over te dragen.

Vorming van het meer hybride toegangsmodus kunt u beginnen met het beheren van machtigingen voor uw AWS Glue-databases en -tabellen via Lake Formation, terwijl u bestaande AWS Identiteits- en toegangsbeheer (IAM)-machtigingen voor deze tabellen en databases. De hybride toegangsmodus van Lake Formation ondersteunt twee machtigingspaden naar dezelfde Data Catalog-databases en -tabellen:

  • In het eerste traject kunt u met Lake Formation specifieke principals (opt-in-principals) selecteren en hen Lake Formation-machtigingen verlenen voor toegang tot databases en tabellen door u aan te melden
  • Het tweede traject geeft alle andere opdrachtgevers (die niet zijn toegevoegd als opt-in opdrachtgevers) toegang tot deze bronnen via het IAM-hoofdbeleid voor Amazon eenvoudige opslagservice (Amazon S3) en AWS Glue-acties

Met de integratie tussen Amazon DataZone en de hybride toegangsmodus van Lake Formation kunt u, als u tabellen in de AWS Glue Data Catalog heeft die worden beheerd via op IAM gebaseerd beleid, deze tabellen rechtstreeks naar Amazon DataZone publiceren, zonder ze in Lake Formation te registreren. Amazon DataZone registreert de locatie van deze tabellen in Lake Formation met behulp van de hybride toegangsmodus, waarmee machtigingen voor AWS Glue-tabellen kunnen worden beheerd via Lake Formation, terwijl de bestaande IAM-machtigingen behouden blijven.

Met Amazon DataZone kunt u elk type asset publiceren in de bedrijfsgegevenscatalogus. Voor sommige van deze activa kan Amazon DataZone automatisch toegangsrechten beheren. Deze activa worden genoemd beheerd vermogenen omvatten door Lake Formation beheerde Data Catalog-tabellen en Amazon Redshift-tabellen en -weergaven. Vóór deze integratie moest u de volgende stappen voltooien voordat Amazon DataZone de gepubliceerde Data Catalog-tabel als beheerd asset kon behandelen:

  1. Identificeer de Amazon S3-locatie die is gekoppeld aan de Data Catalog-tabel.
  2. Registreer de Amazon S3-locatie bij Lake Formation in de hybride toegangsmodus met behulp van een rol met de juiste machtigingen.
  3. Publiceer de tabelmetagegevens naar de bedrijfsgegevenscatalogus van Amazon DataZone.

Het volgende diagram illustreert deze workflow.

Met de integratie van Amazon DataZone met de hybride toegangsmodus van Lake Formation kunt u eenvoudig uw AWS Glue-tabellen publiceren naar Amazon DataZone zonder dat u zich zorgen hoeft te maken over het registreren van de Amazon S3-locatie of het toevoegen van een opt-in-principal in Lake Formation door deze stappen te delegeren aan Amazon DataZone . De beheerder van een AWS-account kan de instelling voor gegevenslocatieregistratie inschakelen onder de DefaultDataLake blauwdruk op de Amazon DataZone-console. Nu kan een gegevenseigenaar of -uitgever zijn AWS Glue-tabel (beheerd via IAM-rechten) publiceren naar Amazon DataZone zonder de extra installatiestappen. Wanneer een dataconsument zich op deze tabel abonneert, registreert Amazon DataZone de Amazon S3-locaties van de tabel in hybride toegangsmodus, voegt de IAM-rol van de dataconsument toe als opt-in-principal en verleent toegang tot dezelfde IAM-rol door machtigingen op de tabel te beheren. tafel door Lake Formation. Dit zorgt ervoor dat IAM-machtigingen op de tafel naast de nieuw verleende Lake Formation-machtigingen kunnen bestaan, zonder bestaande werkstromen te verstoren. Het volgende diagram illustreert deze werkstroom.

Overzicht oplossingen

Om deze nieuwe mogelijkheid te demonstreren, gebruiken we een voorbeeld van een klantscenario waarin het financiële team toegang wil krijgen tot gegevens die eigendom zijn van het verkoopteam voor financiële analyse en rapportage. Het verkoopteam heeft een pijplijn die een dataset creëert met waardevolle informatie over kaartverkoop, populaire evenementen, locaties en seizoenen. We noemen dit de tickit-dataset. Het verkoopteam slaat deze dataset op in Amazon S3 en registreert deze in een database in de Data Catalog. De toegang tot deze tabel wordt momenteel beheerd via op IAM gebaseerde machtigingen. Het verkoopteam wil deze tabel echter publiceren op Amazon DataZone om het veilig en beheerd delen van gegevens met het financiële team mogelijk te maken.

De stappen om deze oplossing te configureren zijn als volgt:

  1. De Amazon DataZone-beheerder schakelt de data lake-locatieregistratie-instelling in Amazon DataZone in om automatisch de Amazon S3-locatie van de AWS Glue-tabellen te registreren in de hybride toegangsmodus van Lake Formation.
  2. Nadat de integratie van de hybride toegangsmodus in Amazon DataZone is ingeschakeld, vraagt ​​het financiële team een ​​abonnement op de verkoopgegevensactiva aan. Het item wordt weergegeven als een beheerd item, wat betekent dat Amazon DataZone de toegang tot dit item kan beheren, zelfs als de Amazon S3-locatie van dit item niet is geregistreerd in Lake Formation.
  3. Het verkoopteam wordt op de hoogte gebracht van een abonnementsaanvraag van het financiële team. Zij beoordelen en keuren het toegangsverzoek goed. Nadat het verzoek is goedgekeurd, vervult Amazon DataZone het abonnementsverzoek door de machtigingen in de Lake Formation te beheren. Het registreert de Amazon S3-locatie van de geabonneerde tafel in de hybride modus van Lake Formation.
  4. Het financiële team krijgt toegang tot de verkoopgegevensset die nodig is voor hun financiële rapporten. Ze kunnen naar hun DataZone-omgeving gaan en met Athena query's uitvoeren op hun geabonneerde dataset.

Voorwaarden

Om de stappen in dit bericht te volgen, heb je een AWS-account nodig. Als u geen account heeft, kunt u dat doen creëer er een. Bovendien moeten de volgende bronnen in uw account zijn geconfigureerd:

  • Een S3-bak
  • Een AWS Glue-database en crawler
  • IAM-rollen voor verschillende persona's en diensten
  • Een Amazon DataZone-domein en -project
  • Een Amazon DataZone-omgevingsprofiel en -omgeving
  • Een Amazon DataZone-gegevensbron

Als u deze bronnen nog niet hebt geconfigureerd, kunt u ze maken door het volgende te implementeren AWS CloudFormatie stapel:

  1. Kies Start Stack om een ​​CloudFormation-sjabloon te implementeren.
  2. Voltooi de stappen om de sjabloon te implementeren en alle instellingen op standaard te laten staan.
  3. kies Ik erken dat AWS CloudFormation IAM-bronnen kan creëren, kies dan Verzenden.

Nadat de CloudFormation-implementatie is voltooid, kunt u inloggen op de Amazon DataZone-portal en handmatig een gegevensbronrun activeren. Hiermee worden eventuele nieuwe of gewijzigde metagegevens uit de bron gehaald en worden de bijbehorende assets in de inventaris bijgewerkt. Deze gegevensbron is geconfigureerd om de gegevensassets automatisch naar de catalogus te publiceren.

  1. Kies op de Amazon DataZone-console Domeinen bekijken.

U moet ingelogd zijn met dezelfde rol die wordt gebruikt om CloudFormation te implementeren en te verifiëren dat u zich in dezelfde AWS-regio bevindt.

  1. Zoek het domein blog_dz_domain, kies dan Dataportaal openen.
  2. Kies Blader door alle projecten En kies Verkoopproducent project.
  3. Op de Data tabblad, kies Data bronnen in het navigatievenster.
  4. Zoek en kies de gegevensbron die u wilt uitvoeren.

Hiermee wordt de pagina met gegevensbrondetails geopend.

  1. Kies het optiemenu (drie verticale stippen) naast tickit_datasource En kies lopen.

De status van de gegevensbron verandert in Actief terwijl Amazon DataZone de metagegevens van het item bijwerkt.

Schakel integratie in hybride modus in Amazon DataZone in

In deze stap doorloopt de Amazon DataZone-beheerder het proces van het inschakelen van de Amazon DataZone-integratie met de hybride toegangsmodus van Lake Formation. Voer de volgende stappen uit:

  1. Open op een apart browsertabblad de Amazon DataZone-console.

Controleer of u zich in dezelfde regio bevindt waar u de CloudFormation-sjabloon hebt geïmplementeerd.

  1. Kies Domeinen bekijken.
  2. Kies het domein gemaakt door AWS CloudFormation, blog_dz_domain.
  3. Scroll naar beneden op de pagina met domeingegevens en kies de Blauwdrukken Tab.

A plan definieert welke AWS-tools en -services kunnen worden gebruikt met de data-assets die zijn gepubliceerd in Amazon DataZone. De DefaultDataLake blueprint is ingeschakeld als onderdeel van de CloudFormation-stackimplementatie. Met deze blauwdruk kunt u AWS Glue-tabellen maken en opvragen met Athena. Voor de stappen om dit in uw eigen implementaties in te schakelen, raadpleegt u Schakel ingebouwde blauwdrukken in het AWS-account in dat eigenaar is van het Amazon DataZone-domein.

  1. Kies de DefaultDataLake blauwdruk.
  2. Op de Provisioning tabblad, kies Edit.
  3. kies Schakel Amazon DataZone in om S3-locaties te registreren met behulp van de hybride toegangsmodus van AWS Lake Formation.

U heeft de mogelijkheid om specifieke Amazon S3-locaties uit te sluiten als u niet wilt dat Amazon DataZone deze automatisch registreert in de hybride toegangsmodus van Lake Formation.

  1. Kies Wijzigingen opslaan.

Toegang vragen

In deze stap logt u als financieel team in bij Amazon DataZone, zoekt u naar de verkoopgegevens en abonneert u zich erop. Voer de volgende stappen uit:

  1. Keer terug naar het browsertabblad van uw Amazon DataZone-dataportal.
  2. Schakel over naar het financiële consumentenproject door het vervolgkeuzemenu naast de projectnaam te kiezen en te kiezen Financiën consumentenproject.

Vanaf deze stap kruipt u in de huid van een financiële gebruiker die zich wil abonneren op een gegevensmiddel dat in de vorige stap is gepubliceerd.

  1. Zoek en kies in de zoekbalk de sales gegevens bezit.
  2. Kies Inschrijven.

Het item wordt weergegeven als beheerd item. Dit betekent dat Amazon DataZone toegang tot dit gegevensmiddel kan verlenen aan het project van het financiële team door de machtigingen in Lake Formation te beheren.

  1. Voer een reden in voor het toegangsverzoek en kies Inschrijven.

Toegangsverzoek goedkeuren

Het verkoopteam krijgt een melding dat er een toegangsverzoek van het financiële team is ingediend. Om de aanvraag goed te keuren, voert u de volgende stappen uit:

  1. Kies het vervolgkeuzemenu naast de projectnaam en kies Verkoopproducent project.

U neemt nu de persona aan van het verkoopteam, dat de eigenaren en beheerders is van de verkoopgegevens.

  1. Kies het meldingspictogram in de rechterbovenhoek van de DataZone-portal.
  2. Kies de Abonnementsaanvraag aangemaakt taak.
  3. Verleen het financiële team toegang tot de verkoopgegevens en kies Goedkeuren.

Analyseer de gegevens

Het financiële team heeft nu toegang gekregen tot de verkoopgegevens en deze dataset is in hun Amazon DataZone-omgeving geweest. Ze hebben toegang tot de omgeving en kunnen de verkoopdataset opvragen met Athena, samen met alle andere datasets die ze momenteel bezitten. Voer de volgende stappen uit:

  1. Kies in het vervolgkeuzemenu Financiën consumentenproject.

In het rechterdeelvenster van het projectoverzichtscherm vindt u een lijst met actieve omgevingen die beschikbaar zijn voor gebruik.

  1. Kies de Amazon DataZone-omgeving finance_dz_environment.
  2. In het navigatievenster, onder Gegevensactiva, kiezen geabonneerd.
  3. Controleer of uw omgeving nu toegang heeft tot de verkoopgegevens.

Het kan een paar minuten duren voordat het gegevensmiddel automatisch aan uw omgeving wordt toegevoegd.

  1. Kies het nieuwe tabbladpictogram voor Gegevens opvragen.

Er wordt een nieuw tabblad geopend met de Athena-queryeditor.

  1. Voor Database, kiezen finance_consumer_db_tickitdb-<suffix>.

Deze database bevat uw geabonneerde gegevensactiva.

  1. Genereer een voorbeeld van de verkooptabel door het optiemenu (drie verticale stippen) te kiezen en te kiezen Voorbeeldtabel.

Opruimen

Voer de volgende stappen uit om uw bronnen op te schonen:

  1. Schakel terug naar de beheerdersrol die u gebruikte om de CloudFormation-stack te implementeren.
  2. Op de Amazon DataZone-console: verwijder de projecten gebruikt in dit bericht. Hiermee worden de meeste projectgerelateerde objecten, zoals gegevensassets en omgevingen, verwijderd.
  3. Verwijder op de AWS CloudFormation-console de stapel die u aan het begin van dit bericht hebt geïmplementeerd.
  4. Verwijder op de Amazon S3-console de S3-buckets die de tickit-dataset bevatten.
  5. Verwijder op de Lake Formation-console de Lake Formation-beheerders die zijn geregistreerd door Amazon DataZone.
  6. Verwijder op de Lake Formation-console tabellen en databases die zijn gemaakt door Amazon DataZone.

Conclusie

In dit bericht hebben we besproken hoe de integratie tussen Amazon DataZone en de hybride toegangsmodus van Lake Formation het proces vereenvoudigt om Amazon DataZone te gaan gebruiken voor end-to-end beheer van uw gegevens in de AWS Glue Data Catalog. Deze integratie helpt je de handmatige stappen van de introductie bij Lake Formation te omzeilen voordat je Amazon DataZone kunt gaan gebruiken.

Voor meer informatie over hoe u aan de slag kunt gaan met Amazon DataZone, raadpleegt u de Aan de slag-gids. Check out de YouTube-afspeellijst voor enkele van de nieuwste demo's van Amazon DataZone en korte beschrijvingen van de beschikbare mogelijkheden. Zie voor meer informatie over Amazon DataZone Hoe Amazon DataZone klanten helpt waarde te vinden in oceanen van data.


Over de auteurs

Utkarsh Mittal is senior technisch productmanager voor Amazon DataZone bij AWS. Hij heeft een passie voor het bouwen van innovatieve producten die het end-to-end analysetraject van klanten vereenvoudigen. Buiten de technische wereld houdt Utkarsh ervan om muziek te spelen, waarbij drums zijn nieuwste onderneming is.

Praveen Kumar is een Principal Analytics Solution Architect bij AWS met expertise in het ontwerpen, bouwen en implementeren van moderne data- en analyseplatforms met behulp van cloudgerichte services. Zijn interessegebieden zijn serverloze technologie, moderne clouddatawarehouses, streaming en generatieve AI-applicaties.

Paul Villena is een Senior Analytics Solutions Architect bij AWS met expertise in het bouwen van moderne data- en analyseoplossingen om de bedrijfswaarde te vergroten. Hij werkt samen met klanten om hen te helpen de kracht van de cloud te benutten. Zijn interessegebieden zijn infrastructuur als code, serverloze technologieën en codering in Python

spot_img

Laatste intelligentie

spot_img