Zephyrnet-logo

Voer een query uit op uw Apache Hive-metastore met AWS Lake Formation-machtigingen | Amazon-webservices

Datum:

Apache-bijenkorf is een op SQL gebaseerd datawarehouse-systeem voor het verwerken van zeer gedistribueerde datasets op het Apache Hadoop-platform. Er zijn twee belangrijke onderdelen van Apache Hive: de Hive SQL-query-engine en de Hive-metastore (HMS). De Hive-metastore is een opslagplaats van metadata over de SQL-tabellen, zoals databasenamen, tabelnamen, schema, serialisatie- en deserialisatie-informatie, gegevenslocatie en partitiedetails van elke tabel. Apache Hive, Apache Spark, Presto en Trino kunnen allemaal een Hive Metastore gebruiken om metadata op te halen om query's uit te voeren. De Hive-metastore kan worden gehost op een Apache Hadoop-cluster of kan worden ondersteund door een relationele database die extern is aan een Hadoop-cluster. Hoewel de Hive-metastore de metadata van tabellen opslaat, kunnen de daadwerkelijke gegevens van de tabel zich bevinden Amazon eenvoudige opslagservice (Amazon S3), het Hadoop Distributed File System (HDFS) van het Hadoop-cluster of andere door Hive ondersteunde datastores.

Omdat Apache Hive bovenop Apache Hadoop is gebouwd, gebruiken veel organisaties de software vanaf het moment dat ze Hadoop gebruikten voor big data-verwerking. Hive metastore biedt ook flexibele integratie met vele andere open-source big data-software zoals Apache HBase, Apache Spark, Presto en Apache Impala. Daarom zijn organisaties ertoe gekomen om enorme hoeveelheden metadata van hun gestructureerde datasets in de Hive-metastore te hosten. Een metastore is een cruciaal onderdeel van een datameer en het is belangrijk om deze informatie beschikbaar te hebben, waar deze zich ook bevindt. Veel AWS-analyseservices integreren echter niet standaard met de Hive-metastore en daarom moesten organisaties hun gegevens naar de Hive-metastore migreren. AWS lijm Data Catalog om deze services te gebruiken.

AWS Lake-formatie heeft ondersteuning gelanceerd voor gebruikerstoegang tot Apache Hive-metastores beheren via een gefedereerde AWS Glue-verbinding. Voorheen kon u Lake Formation gebruiken om gebruikersrechten op te beheren AWS-lijmgegevenscatalogus alleen middelen. Met de Hive-metastore-verbinding van AWS Glue kunt u verbinding maken met een database in een Hive-metastore buiten de Data Catalog, deze toewijzen aan een gefedereerde database in de Data Catalog, Lake Formation-machtigingen toepassen op de Hive-database en tabellen, ze delen met andere AWS-accounts en vraag ze op met behulp van services zoals Amazone Athene, Amazon Roodverschuivingsspectrum, Amazon EMR, en AWS Glue ETL (extraheren, transformeren en laden). Raadpleeg voor meer informatie over hoe de Hive-metastore-integratie met Lake Formation werkt Machtigingen beheren voor datasets die externe metastores gebruiken.

Use cases voor Hive-metastore-integratie met de Data Catalog omvatten het volgende:

  • Een externe Apache Hive-metastore die wordt gebruikt voor oudere big data-workloads, zoals on-premises Hadoop-clusters met gegevens in Amazon S3
  • Tijdelijke Amazon EMR-workloads met onderliggende data in Amazon S3 en de Hive-metastore aan Amazon relationele databaseservice (Amazon RDS)-clusters.

In dit bericht laten we zien hoe u Lake Formation-machtigingen toepast op een Hive-metastore-database en -tabellen en deze opvraagt ​​met Athena. We illustreren een use-case voor het delen van meerdere accounts, waarbij een Lake Formation-steward in producentenaccount A een gefedereerde Hive-database en tabellen deelt met behulp van LF-Tags naar consumentenaccount B.

Overzicht oplossingen

Produceraccount A host een Apache Hive-metastore in een EMR-cluster, met onderliggende gegevens in Amazon S3. We lanceren de AWS Glue Hive metastore-connector vanaf AWS serverloze toepassingsrepository in account A en maak de Hive-metastore-verbinding in de gegevenscatalogus van account A. Nadat we de HMS-verbinding tot stand hebben gebracht, maken we een database in de gegevenscatalogus van account A (de gefedereerde database genoemd) en wijzen deze toe aan een database in de Hive-metastore met behulp van de verbinding. De tabellen uit de Hive-database zijn vervolgens toegankelijk voor de Lake Formation-beheerder in account A, net als alle andere tabellen in de Data Catalog. De beheerder gaat door met het instellen van Lake Formation op tags gebaseerde toegangscontrole (LF-TBAC) op de gefedereerde Hive-database en deelt deze met account B.

De data lake-gebruikers in account B hebben toegang tot de Hive-database en tabellen van account A, net zoals het opvragen van elke andere gedeelde Data Catalog-resource met behulp van Lake Formation-machtigingen.

Het volgende diagram illustreert deze architectuur.

De oplossing bestaat uit stappen in beide accounts. Voer in rekening A de volgende stappen uit:

  1. Maak een S3-bucket om de voorbeeldgegevens te hosten.
  2. Start een EMR 6.10-cluster met Hive. Download de voorbeeldgegevens naar de S3-bucket. Maak een database en externe tabellen, verwijzend naar de gedownloade voorbeeldgegevens, in de Hive-metastore.
  3. Implementeer de applicatie GlueDataCatalogFederation-HiveMetastore van AWS Serverless Application Repository en configureer het om de Amazon EMR Hive-metastore te gebruiken. Hiermee wordt een AWS Glue-verbinding gemaakt met de Hive-metastore die wordt weergegeven op de Lake Formation-console.
  4. Maak met behulp van de Hive-metastore-verbinding een gefedereerde database in de AWS Glue Data Catalog.
  5. Maak LF-Tags en koppel ze aan de gefedereerde database.
  6. Verleen machtigingen voor de LF-Tags aan account B. Verleen database- en tabelmachtigingen aan account B met behulp van LF-Tag-expressies.

Voer in account B de volgende stappen uit:

  1. Bekijk en accepteer als data lake-beheerder het AWS Resource Access Manager (AWS RAM) nodigt uit voor de aandelen van account A.
  2. De data lake-beheerder ziet vervolgens de gedeelde database en tabellen. De beheerder maakt een bronkoppeling naar de database en verleent gedetailleerde machtigingen aan een gegevensanalist in dit account.
  3. Zowel de data lake-beheerder als de data-analist bevragen de Hive-tabellen die voor hen beschikbaar zijn met behulp van Athena.

Account A heeft de volgende persona's:

  • hmsblog-producersteward – Beheert het datameer in het producentenaccount A

Account B heeft de volgende persona's:

  • hmsblog-consumersteward – Beheert het datameer in het consumentenaccount B
  • hmsblog-analist – Een data-analist die toegang nodig heeft tot geselecteerde Hive-tabellen

Voorwaarden

Om de tutorial in dit bericht te volgen, heb je het volgende nodig:

Lake Formation en AWS CloudFormation instellen in account A

Om de installatie eenvoudig te houden, hebben we een IAM-beheerder geregistreerd als data lake-beheerder. Voer de volgende stappen uit:

  1. Log in bij de AWS-beheerconsole En kies de us-west-2 Regio.
  2. Op de Lake Formation-console, onder machtigingen in het navigatievenster, kies Administratieve rollen en taken.
  3. Kies Beheren beheerders in de Data Lake-beheerders pagina.
  4. Onder IAM-gebruikers en -rollen, kies de IAM admin-gebruiker waarmee u bent aangemeld en kies Bespaar.
  5. Kies Start Stack om de CloudFormation-sjabloon te implementeren:
  6. Kies Volgende.
  7. Geef een naam op voor de stapel en kies Volgende.
  8. Kies op de volgende pagina Volgende.
  9. Bekijk de details op de laatste pagina en selecteer Ik erken dat AWS CloudFormation IAM-bronnen kan creëren.
  10. Kies creëren.

Het maken van een stapel duurt ongeveer 10 minuten. De stapel stelt de producentenaccount A als volgt in:

  • Maakt een S3 data lake-bucket
  • Registreert de data lake-bucket bij Lake Formation met de Catalogusfederatie inschakelen vlag
  • Lanceert een EMR 6.10-cluster met Hive en voert twee stappen uit in Amazon EMR:
    • Downloadt de voorbeeldgegevens van de openbare S3-bucket naar de nieuw gemaakte bucket
    • Creëert een Hive-database en vier externe tabellen voor de gegevens in Amazon S3, met behulp van een HQL-script
  • Maakt een IAM-gebruiker aan (hmsblog-producersteward) en stelt deze gebruiker in als Lake Formation-beheerder
  • Maakt LF-Tags (LFHiveBlogCampaignRole = Admin, Analyst)

Bekijk CloudFormation-stackuitvoer in account A

Voer de volgende stappen uit om de uitvoer van uw CloudFormation-stack te bekijken:

  1. Log in op de console als de IAM-beheerder die u eerder gebruikte om de CloudFormation-sjabloon uit te voeren.
  2. Open de CloudFormation-console in een ander browsertabblad.
  3. Bekijk en noteer de stapel Uitgangen tabblad gegevens.
  4. Kies de onderstaande link Waarde For ProducerStewardCredentials.

Dit opent de AWS-geheimenmanager console.

  1. Kies Waarde ophalen en noteer de geloofsbrieven van hmsblog-producersteward.

Stel een gefedereerde AWS Glue-verbinding in account A in

Voer de volgende stappen uit om een ​​gefedereerde AWS Glue-verbinding in te stellen:

  1. Open de AWS Serverless Application Repository-console in een ander browsertabblad.
  2. Kies in het navigatievenster Beschikbare applicaties.
  3. kies Apps weergeven die aangepaste IAM-rollen of resourcebeleid maken.
  4. Typ Glue in de zoekbalk.

Dit zal verschillende applicaties opsommen.

  1. Kies de applicatie met de naam GlueDataCatalogFederation-HiveMetastore.

Dit opent de AWS Lambda consoleconfiguratiepagina voor een Lambda-functie die de connectortoepassingscode uitvoert.

Om de Lambda-functie te configureren, hebt u details nodig van het EMR-cluster dat is gelanceerd door de CloudFormation-stack.

  1. Open op een ander tabblad van uw browser de Amazon EMR-console.
  2. Navigeer naar het cluster dat voor dit bericht is gelanceerd en noteer de volgende details van de pagina met clusterdetails:
    1. Openbare DNS van primair knooppunt
    2. Subnet-ID
    3. Beveiligingsgroep-ID van het primaire knooppunt

  3. Terug op de Lambda-configuratiepagina, onder Controleren, configureren en implementeren, in de Applicatie-instellingen sectie, geeft u de volgende details op. Laat de rest als de standaardwaarden.
    1. Voor GlueConnectionNaam, ga naar binnen hive-metastore-connection.
    2. Voor HiveMetastoreURI's invoeren thrift://<Primary-node-public-DNS-of your-EMR>:9083. For example, thrift://ec2-54-70-203-146.us-west-2.compute.amazonaws.com:9083, Waar 9083 is de Hive-metastore-poort in het EMR-cluster.
    3. Voor VPCSecurityGroupIds, voert u de beveiligingsgroep-ID van het primaire EMR-knooppunt in.
    4. Voor VPCSubnetIds, voer de subnet-ID van het EMR-cluster in.
  4. Kies Implementeren.

Wacht op de Aanmaken Voltooid status van de Lambda-applicatie. U kunt de details van de Lambda-applicatie bekijken op de Lambda-console.

  1. Open de Lake Formation-console en kies in het navigatievenster Het delen van gegevens.

Je zou moeten zien hive-metastore-connection voor aansluitingen.

  1. Kies het en bekijk de details.
  2. In het navigatievenster, onder Administratieve rollen en taken, kiezen LF-tags.

U zou de gemaakte LF-tag moeten zien LFHiveBlogCampaignRole met twee waarden: Analyst en Admin.

  1. Kies LF-Tag-machtigingen En kies Grant.
  2. Kies IAM-gebruikers en -rollen en ga naar binnen hmsblog-producersteward.
  3. Onder LF-tags, kiezen LF-tag toevoegen.
  4. Enter LFHiveBlogCampaignRole For sleutel en ga naar binnen Analyst en Admin For Values.
  5. Onder machtigingenselecteer Beschrijven en Associëren For LF-Tag-machtigingen en Verleenbare machtigingen.
  6. Kies Grant.

Dit geeft LF-Tags machtigingen voor de producer steward.

  1. Meld u af als de IAM-beheerder.

Geef toestemming aan Lake Formation als producer steward

Voer de volgende stappen uit:

  1. Meld u aan bij de console als hmsblog-producersteward, met behulp van de inloggegevens van de CloudFormation-stack uitgang tabblad dat u eerder hebt genoteerd.
  2. Kies op de Lake Formation-console in het navigatiedeelvenster Administratieve rollen en taken.
  3. Onder Database-makers, kiezen Grant.
  4. Toevoegen hmsblog-producersteward als databasemaker.
  5. Kies in het navigatievenster Het delen van gegevens.
  6. Onder aansluitingen, kies de hive-metastore-connection hyperlink.
  7. Op de Verbindingsdetails pagina, kies Maak een database.
  8. Voor Database naam, ga naar binnen federated_emrhivedb.

Dit is de gefedereerde database in de lokale AWS Glue Data Catalog die verwijst naar een Hive-metastore-database. Dit is een één-op-één toewijzing van een database in de gegevenscatalogus aan een database in de externe Hive-metastore.

  1. Voor Database-ID, voert u de naam van de database in de EMR Hive-metastore in die is gemaakt met het Hive SQL-script. Voor deze post gebruiken we emrhms_salesdb.
  2. Eenmaal gemaakt, selecteert u federated_emrhivedb En kies Tabellen bekijken.

Hiermee worden de database- en tabelmetadata opgehaald uit de Hive-metastore op het EMR-cluster en worden de tabellen weergegeven die zijn gemaakt door het Hive-script.

Nu koppelt u de LF-Tags die zijn gemaakt door het CloudFormation-script aan deze gefedereerde database en deelt u deze met het consumentenaccount B met behulp van LF-Tag-expressies.

  1. Kies in het navigatievenster databases.
  2. kies federated_emrhivedb en in de Acties menu, kies Bewerk LF-tags.
  3. Kies Nieuwe LF-Tag toewijzen.
  4. Enter LFHiveBlogCampaignRole For Toegewezen toetsen en Admin For Values, kies dan Bespaar.
  5. Kies in het navigatievenster Data lake-machtigingen.
  6. Kies Grant.
  7. kies Externe accounts en vul het B-nummer van de consumentenrekening in.
  8. Onder LF-tags of catalogusbronnen, kiezen Bron gematcht door LF-Tags.
  9. Kies LF-tag toevoegen.
  10. Enter LFHiveBlogCampaignRole For sleutel en Admin For Values.
  11. In het Databasemachtigingen sectie, selecteer Beschrijven For Databasemachtigingen en Verleenbare machtigingen.
  12. In het Tabelrechten sectie, selecteer Selecteer en beschrijf For Tabelrechten en Verleenbare machtigingen.
  13. Kies Grant.
  14. In het navigatievenster, onder Administratieve rollen en taken, kiezen LF-Tag-machtigingen.
  15. Kies Grant.
  16. kies Externe accounts en voer het account-ID van consumentenaccount B in.
  17. Onder LF-tags, ga naar binnen LFHiveBlogCampaignRole For sleutel en ga naar binnen Analyst en Admin For Values.
  18. Onder machtigingenselecteer Beschrijven en Associëren voor LF-Tag-machtigingen en Verleenbare machtigingen.
  19. Kies Grant en controleer of de verleende LF-Tag-machtigingen correct worden weergegeven.
  20. Kies in het navigatievenster Data lake-machtigingen.

U kunt de machtigingen die zijn verleend aan account B bekijken en verifiëren.

  1. In het navigatievenster, onder Administratieve rollen en taken, kiezen LF-Tag-machtigingen.

U kunt de machtigingen die zijn verleend aan account B bekijken en verifiëren.

  1. Meld u af bij account A.

Lake Formation en AWS CloudFormation instellen in account B

Om de installatie eenvoudig te houden, gebruiken we een IAM-beheerder die is geregistreerd als data lake-beheerder.

  1. Log in bij de AWS-beheerconsole van rekening B en selecteer de us-west-2 Regio.
  2. Op de Lake Formation-console, onder machtigingen in het navigatievenster, kies Administratieve rollen en taken.
  3. Kies Beheer beheerders in de Data Lake-beheerders pagina.
  4. Kies onder IAM-gebruikers en -rollen de IAM-beheerder waarmee u bent aangemeld en kies Bespaar.
  5. Kies Start Stack om de CloudFormation-sjabloon te implementeren:
  6. Kies Volgende.
  7. Geef een naam op voor de stapel en kies Volgende.
  8. Kies op de volgende pagina Volgende.
  9. Bekijk de details op de laatste pagina en selecteer Ik erken dat AWS CloudFormation IAM-bronnen kan creëren.
  10. Kies creëren.

Het maken van een stapel duurt ongeveer 5 minuten. De stapel stelt de set-up van producentenaccount B als volgt in:

  • Maakt een IAM-gebruiker aan hmsblog-consumersteward en stelt deze gebruiker in als Lake Formation-beheerder
  • Maakt nog een IAM-gebruiker aan hmsblog-analyst
  • Creëert een S3 data lake-bucket om Athena-queryresultaten op te slaan ListBucket en schrijf objectrechten naar beide hmsblog-consumersteward en hmsblog-analyst

Noteer de details van de stapeluitvoer.

Accepteer resourceshares in account B

Meld u aan bij de console als hmsblog-consumersteward en voer de volgende stappen uit:

  1. Navigeer op de AWS CloudFormation-console naar de stapel Uitgangen Tab.
  2. Kies de link voor ConsumerStewardCredentials om te worden doorgestuurd naar de Secrets Manager-console.
  3. Kies op de Secrets Manager-console Haal geheime waarde op en kopieer het wachtwoord voor de consumer steward-gebruiker.
  4. Gebruik de ConsoleIAMLoginURL waarde uit de CloudFormation-sjabloon uitgang om in te loggen op account B met de gebruikersnaam van de steward van de consument hmsblog-consumersteward en het wachtwoord dat u uit Secrets Manager hebt gekopieerd.
  5. Open de AWS RAM-console in een ander browsertabblad.
  6. In het navigatievenster, onder Gedeeld met mij, kiezen Resource-aandelen om de openstaande uitnodigingen te bekijken.

Als het goed is, ziet u twee uitnodigingen voor het delen van bronnen van producentenaccount A: één voor een gedeelde database op databaseniveau en één voor een gedeelde map op tabelniveau.

  1. Kies elke koppeling voor het delen van bronnen, bekijk de details en maak een keuze ACCEPTEREN.

Nadat u de uitnodigingen hebt geaccepteerd, verandert de status van de resourceshares van In behandeling naar Actief.

  1. Open de Lake Formation-console in een ander browsertabblad.
  2. Kies in het navigatievenster databases.

U zou de gedeelde database moeten zien federated_emrhivedb van producentenaccount A.

  1. Kies de database en kies Tabellen bekijken om de lijst met gedeelde tabellen onder die database te bekijken.

U zou de vier tabellen van de Hive-database moeten zien die wordt gehost op het EMR-cluster in het producentenaccount.

Machtigingen verlenen in account B

Voer de volgende stappen uit om machtigingen te verlenen in account B hmsblog-consumersteward:

  1. Kies op de Lake Formation-console in het navigatiedeelvenster Administratieve rollen en taken.
  2. Onder Database-makers, kiezen Grant.
  3. Voor IAM-gebruikers en -rollen, ga naar binnen hmsblog-consumersteward.
  4. Voor Catalogusmachtigingenselecteer Maak een database.
  5. Kies Grant.

Dit staat toe hmsblog-consumersteward om een ​​koppeling met een databasebron te maken.

  1. Kies in het navigatievenster databases.
  2. kies federated_emrhivedb en in de Acties menu, kies Maak een resourcekoppeling.
  3. Enter rl_federatedhivedb For Naam bronlink En kies creëren.
  4. Kies databases in het navigatievenster.
  5. Selecteer de bronkoppeling rl_federatedhivedb en in de Acties menu, kies Grant.
  6. Kies hmsblog-analyst For IAM-gebruikers en -rollen.
  7. Onder Rechten voor bronlinkselecteer Beschrijven, kies dan Grant.
  8. kies databases in het navigatievenster.
  9. Selecteer de bronkoppeling rl_federatedhivedb en in de Acties menu, kies Subsidie ​​op doel.
  10. Kies hmsblog-analyst For IAM-gebruikers en -rollen.
  11. Kies hms_productcategory en hms_supplier For Tafels.
  12. Voor Tabelrechtenselecteer kies en Beschrijven, kies dan Grant.
  13. Kies in het navigatievenster Data lake-machtigingen en bekijk de machtigingen die zijn verleend aan hms-analyst.

Vraag de Apache Hive-database van de producent van de consument Athena

Voer de volgende stappen uit:

  1. Navigeer op de Athena-console naar de query-editor.
  2. Kies Instellingen bewerken om de Athena-queryresultaten te configureren bucked.
  3. Blader en kies de S3-bucket hmsblog-athenaresults-<your-account-B>-us-west-2 die de CloudFormation-sjabloon heeft gemaakt.
  4. Kies Bespaar.

hmsblog-consumersteward heeft toegang tot alle vier onderstaande tabellen federated_emrhivedb van het producentenaccount.

  1. Kies de database in de Athena-query-editor rl_federatedhivedb en voer een query uit op een van de tabellen.

U kon een externe Apache Hive-metastore-database van het producentenaccount opvragen via de AWS Glue Data Catalog en Lake Formation-machtigingen met behulp van Athena vanuit het ontvangende consumentenaccount.

  1. Meld u af bij de console als hmsblog-consumersteward en log opnieuw in als hmsblog-analyst.
  2. Gebruik dezelfde methode als eerder uitgelegd om de inloggegevens van de CloudFormation-stack op te halen Uitgangen Tab.

hmsblog-analyst heeft machtigingen Beschrijven voor de bronkoppeling en toegang tot twee van de vier Hive-tabellen. U kunt verifiëren dat u ze ziet op de databases en Tafels pagina's op de Lake Formation-console.

Op de Athena-console configureert u nu de Athena-queryresultatenbucket, vergelijkbaar met hoe u deze hebt geconfigureerd hmsblog-consumersteward.

  1. Kies in de query-editor Instellingen bewerken.
  2. Blader en kies de S3-bucket hmsblog-athenaresults-<your-account-B>-us-west-2 die de CloudFormation-sjabloon heeft gemaakt.
  3. Kies Bespaar.
  4. Kies de database in de Athena-query-editor rl_federatedhivedb en voer een query uit op de twee tabellen.
  5. Meld u af bij de console als hmsblog-analyst.

U kon het delen van de externe Apache Hive-metastore-tabellen beperken met behulp van Lake Formation-machtigingen van het ene account naar het andere en ze opvragen met behulp van Athena. U kunt ook de Hive-tabellen opvragen met behulp van Redshift Spectrum, Amazon EMR en AWS Glue ETL vanuit het consumentenaccount.

Opruimen

Om te voorkomen dat er kosten in rekening worden gebracht voor de AWS-bronnen die in dit bericht zijn gemaakt, kunt u de volgende stappen uitvoeren.

Resources opschonen in account A

Er zijn twee CloudFormation-stacks gekoppeld aan producentenaccount A. U moet de afhankelijkheden en de twee stacks in de juiste volgorde verwijderen.

  1. Log in als de admin-gebruiker op producentenaccount B.
  2. Kies op de Lake Formation-console Data lake-machtigingen in het navigatievenster.
  3. Kies Grant.
  4. Geef Drop-machtigingen aan uw rol of gebruiker op federated_emrhivedb.
  5. Kies in het navigatievenster databases.
  6. kies federated_emrhivedb en in de Acties menu, kies Verwijder om de gefedereerde database te verwijderen die is gekoppeld aan de Hive-metastore-verbinding.

Hierdoor is de CloudFormation-stack van de AWS Glue-verbinding klaar om te worden verwijderd.

  1. Kies in het navigatievenster Administratieve rollen en taken.
  2. Onder Database-makersselecteer Intrekken en verwijder hmsblog-producersteward machtigingen.
  3. Verwijder op de CloudFormation-console de stapel met de naam serverlessrepo-GlueDataCatalogFederation-HiveMetastore kopen.

Dit is degene die is gemaakt door uw AWS SAM-toepassing voor de Hive-metastore-verbinding. Wacht tot het verwijderen is voltooid.

  1. Verwijder de CloudFormation-stack die u hebt gemaakt voor het instellen van het producentenaccount.

Hiermee worden de S3-buckets, het EMR-cluster, aangepaste IAM-rollen en -beleid, en de LF-tags, database, tabellen en machtigingen verwijderd.

Resources opschonen in account B

Voer de volgende stappen uit in account B:

  1. Toestemming voor intrekken hmsblog-consumersteward als database-maker, vergelijkbaar met de stappen in de vorige sectie.
  2. Verwijder de CloudFormation-stack die u hebt gemaakt voor de configuratie van het consumentenaccount.

Hiermee worden de IAM-gebruikers, de S3-bucket en alle machtigingen van Lake Formation verwijderd.

Als er links naar bronnen en machtigingen over zijn, verwijdert u deze handmatig in Lake Formation van beide accounts.

Conclusie

In dit bericht hebben we u laten zien hoe u de AWS Glue Hive-metastore-federatietoepassing start vanuit AWS Serverless Application Repository, deze configureert met een Hive-metastore die draait op een EMR-cluster, een gefedereerde database maakt in de AWS Glue Data Catalog en deze toewijst aan een Hive-metastore-database op het EMR-cluster. We hebben geïllustreerd hoe u de Hive-databasetabellen kunt delen en openen voor een scenario met meerdere accounts en de voordelen van het gebruik van Lake Formation om machtigingen te beperken.

Alle functies van Lake Formation, zoals delen met IAM-principals binnen hetzelfde account, delen met externe accounts, delen met externe IAM-principals, kolomtoegang beperken en gegevensfilters instellen, werken op gefedereerde Hive-database en -tabellen. U kunt elk van de AWS-analyseservices gebruiken die zijn geïntegreerd met Lake Formation, zoals Athena, Redshift Spectrum, AWS Glue ETL en Amazon EMR om de gefedereerde Hive-database en -tabellen te doorzoeken.

We raden u aan om de functies van de AWS Glue Hive-metastore-federatieconnector te bekijken en Lake Formation-machtigingen voor uw Hive-database en -tabellen te verkennen. Reageer op dit bericht of praat met uw AWS-accountteam om feedback over deze functie te delen.

Zie voor meer informatie Machtigingen beheren voor datasets die externe metastores gebruiken.


Over de auteurs

Aarthi Srinivasan is een Senior Big Data Architect bij AWS Lake Formation. Ze bouwt graag data lake-oplossingen voor AWS-klanten en -partners. Als ze niet achter het toetsenbord zit, verkent ze de nieuwste wetenschappelijke en technologische trends en brengt ze tijd door met haar gezin.

spot_img

Laatste intelligentie

spot_img