Zephyrnet-logotyp

Amazon DataZone tillkännager integration med AWS Lake Formation hybridåtkomstläge för AWS Glue Data Catalog | Amazon webbtjänster

Datum:

Förra veckan meddelade vi allmänna tillgängligheten av integrationen mellan Amazon DataZone och AWS Lake Formation hybridåtkomstläge. I det här inlägget delar vi hur den här nya funktionen hjälper dig att förenkla hur du använder Amazon DataZone för att möjliggöra säker och styrd delning av dina data i AWS-lim Datakatalog. Vi fördjupar oss också i hur dataproducenter kan dela sina AWS Glue-tabeller genom Amazon DataZone utan att behöva registrera dem i Lake Formation först.

Översikt över Amazon DataZone-integreringen med Lake Formation hybridåtkomstläge

Amazon DataZone är en fullständigt hanterad datahanteringstjänst för att katalogisera, upptäcka, analysera, dela och styra data mellan dataproducenter och konsumenter i din organisation. Med Amazon DataZone fyller dataproducenter affärsdatakatalogen med datatillgångar från datakällor som AWS Glue Data Catalog och Amazon RedShift. De berikar också sina tillgångar med affärskontext för att göra det enkelt för datakonsumenter att förstå. Efter att data finns tillgängliga i katalogen kan datakonsumenter som analytiker och datavetare söka och få tillgång till dessa data genom att begära prenumerationer. När begäran godkänns kan Amazon DataZone automatiskt tillhandahålla åtkomst till data genom att hantera behörigheter i Lake Formation eller Amazon Redshift så att datakonsumenten kan börja fråga efter data med hjälp av verktyg som t.ex. Amazonas Athena eller Amazon Redshift.

För att hantera åtkomsten till data i AWS Glue Data Catalog använder Amazon DataZone Lake Formation. Tidigare, om du ville använda Amazon DataZone för att hantera åtkomst till dina data i AWS Glue Data Catalog, var du tvungen att ta med dina data till Lake Formation först. Nu förenklar integrationen av Amazon DataZone och Lake Formation hybridåtkomstläge hur du kan komma igång med din Amazon DataZone-resa genom att ta bort behovet av att ta med dina data till Lake Formation först.

Sjöformation hybridåtkomstläge låter dig börja hantera behörigheter på dina AWS Glue-databaser och tabeller genom Lake Formation, samtidigt som du fortsätter att underhålla alla befintliga AWS identitets- och åtkomsthantering (IAM)-behörigheter för dessa tabeller och databaser. Lake Formation hybridåtkomstläge stöder två behörighetsvägar till samma Data Catalog-databaser och tabeller:

  • I den första vägen låter Lake Formation dig välja specifika principaler (opt-in principals) och ge dem Lake Formation behörighet att komma åt databaser och tabeller genom att välja in
  • Den andra vägen tillåter alla andra principaler (som inte läggs till som opt-in-huvudmän) att få tillgång till dessa resurser via IAM:s huvudpolicyer för Amazon enkel lagringstjänst (Amazon S3) och AWS limåtgärder

Med integrationen mellan Amazon DataZone och Lake Formations hybridåtkomstläge, om du har tabeller i AWS Glue Data Catalog som hanteras genom IAM-baserade policyer, kan du publicera dessa tabeller direkt till Amazon DataZone, utan att registrera dem i Lake Formation. Amazon DataZone registrerar platsen för dessa tabeller i Lake Formation med hybridåtkomstläge, vilket tillåter hantering av behörigheter på AWS Glue-tabeller genom Lake Formation, samtidigt som alla befintliga IAM-behörigheter bibehålls.

Amazon DataZone gör att du kan publicera alla typer av tillgångar i affärsdatakatalogen. För vissa av dessa tillgångar kan Amazon DataZone automatiskt hantera åtkomstbeviljande. Dessa tillgångar kallas förvaltade tillgångar, och inkluderar Lake Formation-hanterade Data Catalog-tabeller och Amazon Redshift-tabeller och vyer. Innan denna integration var du tvungen att slutföra följande steg innan Amazon DataZone kunde behandla den publicerade datakatalogtabellen som en hanterad tillgång:

  1. Identifiera Amazon S3-platsen som är associerad med Data Catalog-tabellen.
  2. Registrera Amazon S3-platsen med Lake Formation i hybridåtkomstläge med en roll med lämpliga behörigheter.
  3. Publicera tabellens metadata till Amazon DataZones affärsdatakatalog.

Följande diagram illustrerar detta arbetsflöde.

Med Amazon DataZones integration med Lake Formations hybridåtkomstläge kan du helt enkelt publicera dina AWS Glue-tabeller till Amazon DataZone utan att behöva oroa dig för att registrera Amazon S3-platsen eller lägga till en opt-in-princip i Lake Formation genom att delegera dessa steg till Amazon DataZone . Administratören för ett AWS-konto kan aktivera inställningen för dataplatsregistrering under DefaultDataLake ritning på Amazon DataZone-konsolen. Nu kan en dataägare eller utgivare publicera sin AWS Glue-tabell (hanteras genom IAM-behörigheter) till Amazon DataZone utan de extra inställningsstegen. När en datakonsument prenumererar på denna tabell, registrerar Amazon DataZone Amazon S3-platserna för tabellen i hybridåtkomstläge, lägger till datakonsumentens IAM-roll som en opt-in-principal och ger åtkomst till samma IAM-roll genom att hantera behörigheter på bord genom Lake Formation. Detta säkerställer att IAM-behörigheter på bordet kan samexistera med nyligen beviljade Lake Formation-behörigheter, utan att störa några befintliga arbetsflöden. Följande diagram illustrerar detta arbetsflöde.

Lösningsöversikt

För att demonstrera denna nya förmåga använder vi ett exempel på kundscenario där ekonomiteamet vill komma åt data som ägs av säljteamet för finansiell analys och rapportering. Säljteamet har en pipeline som skapar en datauppsättning som innehåller värdefull information om biljettförsäljning, populära evenemang, arenor och säsonger. Vi kallar det tickit-dataset. Säljteamet lagrar denna datauppsättning i Amazon S3 och registrerar den i en databas i datakatalogen. Åtkomsten till den här tabellen hanteras för närvarande genom IAM-baserade behörigheter. Säljteamet vill dock publicera denna tabell till Amazon DataZone för att underlätta säker och styrd datadelning med ekonomiteamet.

Stegen för att konfigurera den här lösningen är följande:

  1. Amazon DataZone-administratören aktiverar inställningen för registrering av datasjöplats i Amazon DataZone för att automatiskt registrera Amazon S3-platsen för AWS Glue-tabellerna i Lake Formations hybridåtkomstläge.
  2. Efter att integreringen av hybridåtkomstläge har aktiverats i Amazon DataZone, begär ekonomiteamet en prenumeration på försäljningsdatatillgången. Tillgången visas som en hanterad tillgång, vilket innebär att Amazon DataZone kan hantera åtkomst till denna tillgång även om Amazon S3-platsen för denna tillgång inte är registrerad i Lake Formation.
  3. Säljteamet meddelas om en prenumerationsförfrågan som väckts av ekonomiteamet. De granskar och godkänner åtkomstbegäran. Efter att begäran har godkänts, uppfyller Amazon DataZone prenumerationsförfrågan genom att hantera behörigheter i Lake Formation. Den registrerar Amazon S3-platsen för det prenumererade bordet i Lake Formation hybridläge.
  4. Ekonomiteamet får tillgång till den försäljningsdatauppsättning som krävs för deras finansiella rapporter. De kan gå till sin DataZone-miljö och börja köra frågor med Athena mot sin prenumererade datauppsättning.

Förutsättningar

För att följa stegen i det här inlägget behöver du ett AWS-konto. Om du inte har ett konto kan du skapa en. Dessutom måste du ha följande resurser konfigurerade i ditt konto:

  • En S3 hink
  • En AWS Glue-databas och sökrobot
  • IAM-roller för olika personer och tjänster
  • En Amazon DataZone-domän och ett projekt
  • En Amazon DataZone-miljöprofil och miljö
  • En Amazon DataZone-datakälla

Om du inte redan har konfigurerat dessa resurser kan du skapa dem genom att distribuera följande AWS molnformation stack:

  1. Välja Starta stack för att distribuera en CloudFormation-mall.
  2. Slutför stegen för att distribuera mallen och lämna alla inställningar som standard.
  3. Välja Jag erkänner att AWS CloudFormation kan skapa IAM-resurserOch välj sedan Skicka.

När CloudFormation-distributionen är klar kan du logga in på Amazon DataZone-portalen och manuellt utlösa en datakälla. Detta hämtar all ny eller modifierad metadata från källan och uppdaterar de associerade tillgångarna i inventeringen. Denna datakälla har konfigurerats för att automatiskt publicera datatillgångarna till katalogen.

  1. Välj på Amazon DataZone-konsolen Visa domäner.

Du bör vara inloggad med samma roll som används för att distribuera CloudFormation och verifiera att du är i samma AWS-region.

  1. Hitta domänen blog_dz_domainOch välj sedan Öppna dataportalen.
  2. Välja Bläddra bland alla projekt Och välj Försäljningsproducentprojekt.
  3. Data fliken, välj Datakällor i navigeringsfönstret.
  4. Leta upp och välj den datakälla som du vill köra.

Detta öppnar informationssidan för datakällan.

  1. Välj alternativmenyn (tre vertikala punkter) bredvid tickit_datasource Och välj Körning.

Datakällans status ändras till Körs när Amazon DataZone uppdaterar tillgångens metadata.

Aktivera hybridlägesintegration i Amazon DataZone

I det här steget går Amazon DataZone-administratören igenom processen för att aktivera Amazon DataZone-integreringen med Lake Formations hybridåtkomstläge. Slutför följande steg:

  1. Öppna Amazon DataZone-konsolen på en separat webbläsarflik.

Verifiera att du är i samma region där du distribuerade CloudFormation-mallen.

  1. Välja Visa domäner.
  2. Välj den domän som skapats av AWS CloudFormation, blog_dz_domain.
  3. Rulla ned på sidan med domändetaljer och välj Ritningar fliken.

A blueprint definierar vilka AWS-verktyg och tjänster som kan användas med de datatillgångar som publiceras i Amazon DataZone. De DefaultDataLake blueprint är aktiverat som en del av CloudFormations stack-distribution. Denna ritning låter dig skapa och fråga AWS Glue-tabeller med Athena. För stegen för att aktivera detta i dina egna distributioner, se Aktivera inbyggda ritningar i AWS-kontot som äger Amazon DataZone-domänen.

  1. Välj DefaultDataLake plan.
  2. Provisioning fliken, välj Redigera.
  3. Välja Aktivera Amazon DataZone att registrera S3-platser med AWS Lake Formation hybridåtkomstläge.

Du har möjlighet att utesluta specifika Amazon S3-platser om du inte vill att Amazon DataZone automatiskt ska registrera dem i Lake Formations hybridåtkomstläge.

  1. Välja Spara ändringar.

Begära tillgång

I det här steget loggar du in på Amazon DataZone som ekonomiteam, söker efter försäljningsdatatillgången och prenumererar på den. Slutför följande steg:

  1. Återgå till din Amazon DataZone dataportal webbläsarflik.
  2. Byt till finanskonsumentprojektet genom att välja rullgardinsmenyn bredvid projektnamnet och välja Finansiering konsumentprojekt.

Från det här steget och framåt tar du på dig persona av en finansanvändare som vill prenumerera på en datatillgång som publicerades i föregående steg.

  1. I sökfältet, sök efter och välj sales datatillgång.
  2. Välja Prenumerera.

Tillgången visas som hanterad tillgång. Detta innebär att Amazon DataZone kan ge åtkomst till denna datatillgång till finansteamets projekt genom att hantera behörigheterna i Lake Formation.

  1. Ange ett skäl för åtkomstbegäran och välj Prenumerera.

Godkänn åtkomstbegäran

Säljteamet får ett meddelande om att en åtkomstbegäran från ekonomiteamet skickas in. Utför följande steg för att godkänna begäran:

  1. Välj rullgardinsmenyn bredvid projektnamnet och välj Försäljningsproducentprojekt.

Du antar nu säljteamets persona, som är ägare och förvaltare av försäljningsdatatillgångarna.

  1. Välj meddelandeikonen i det övre högra hörnet av DataZone-portalen.
  2. Välj Prenumerationsförfrågan skapad uppgift.
  3. Ge åtkomst till försäljningsdatatillgången till ekonomiteamet och välj Godkänn.

Analysera data

Ekonomiteamet har nu fått tillgång till försäljningsdata, och denna datauppsättning har varit till deras Amazon DataZone-miljö. De kan komma åt miljön och fråga säljdatauppsättningen med Athena, tillsammans med andra datauppsättningar som de för närvarande äger. Slutför följande steg:

  1. Välj i rullgardinsmenyn Finansiering konsumentprojekt.

I den högra rutan på projektöversiktsskärmen kan du hitta en lista över aktiva miljöer som är tillgängliga för användning.

  1. Välj Amazon DataZone-miljön finance_dz_environment.
  2. I navigeringsfönstret, under Datatillgångarväljer Bevakade.
  3. Verifiera att din miljö nu har tillgång till försäljningsdata.

Det kan ta några minuter för datatillgången att automatiskt läggas till i din miljö.

  1. Välj ikonen ny flik för Fråga data.

En ny flik öppnas med Athena-frågeredigeraren.

  1. För Databasväljer finance_consumer_db_tickitdb-<suffix>.

Denna databas kommer att innehålla dina prenumererade datatillgångar.

  1. Generera en förhandsvisning av försäljningstabellen genom att välja alternativmenyn (tre vertikala punkter) och välja Förhandsgranska tabellen.

Städa upp

Gör följande för att städa upp dina resurser:

  1. Växla tillbaka till administratörsrollen du använde för att distribuera CloudFormation-stacken.
  2. På Amazon DataZone-konsolen, ta bort projekten används i detta inlägg. Detta tar bort de flesta projektrelaterade objekt som datatillgångar och miljöer.
  3. På AWS CloudFormation-konsolen, ta bort stacken du distribuerade i början av det här inlägget.
  4. På Amazon S3-konsolen, ta bort S3-hinkarna som innehåller tickit-datauppsättningen.
  5. På Lake Formation-konsolen, ta bort Lake Formation-administratörerna som registrerats av Amazon DataZone.
  6. Ta bort tabeller och databaser skapade av Amazon DataZone på Lake Formation-konsolen.

Slutsats

I det här inlägget diskuterade vi hur integrationen mellan Amazon DataZone och Lake Formation hybridåtkomstläge förenklar processen för att börja använda Amazon DataZone för end-to-end-styrning av dina data i AWS Glue Data Catalog. Denna integration hjälper dig att kringgå de manuella stegen för ombordstigning till Lake Formation innan du kan börja använda Amazon DataZone.

För mer information om hur du kommer igång med Amazon DataZone, se Uppstartnings Guide. Kolla in YouTube-spellista för några av de senaste demonerna av Amazon DataZone och korta beskrivningar av de tillgängliga funktionerna. För mer information om Amazon DataZone, se Hur Amazon DataZone hjälper kunder att hitta värde i oceaner av data.


Om författarna

Utkarsh Mittal är Senior Technical Product Manager för Amazon DataZone på AWS. Han brinner för att bygga innovativa produkter som förenklar kundernas end-to-end analysresor. Utanför teknikvärlden älskar Utkarsh att spela musik, med trummor som hans senaste strävan.

Praveen Kumar är en Principal Analytics Solution Architect på AWS med expertis i att designa, bygga och implementera moderna data- och analysplattformar med hjälp av molncentrerade tjänster. Hans intresseområden är serverlös teknologi, moderna molndatalager, streaming och generativa AI-applikationer.

Paul Villena är en Senior Analytics Solutions Architect i AWS med expertis i att bygga moderna data- och analyslösningar för att skapa affärsvärde. Han arbetar med kunder för att hjälpa dem att utnyttja kraften i molnet. Hans intresseområden är infrastruktur som kod, serverlösa teknologier och kodning i Python

plats_img

Senaste intelligens

plats_img