Zephyrnet-logo

AWS Lake Formation 2023 jaaroverzicht | Amazon-webservices

Datum:

AWS Lake-formatie en AWS lijm Data Catalog vormt een integraal onderdeel van een data governance-oplossing voor datameren waarop voortgebouwd wordt Amazon eenvoudige opslagservice (Amazon S3) met meerdere AWS-analyseservices die ermee integreren. In 2022, spraken we over de verbeteringen die we aan deze services hadden aangebracht. We blijven luisteren naar de verhalen van klanten en werken achteruit om hun gedachten in onze producten te verwerken. In dit bericht vatten we graag de resultaten samen van ons harde werk in 2023 om het databeheer voor klanten te verbeteren en te vereenvoudigen.

We hebben onze nieuwe functies en mogelijkheden aangekondigd tijdens AWS re:Invent 2023, zoals elk jaar onze gewoonte. De volgende zijn re:Invent 2023-gesprekken waarin de mogelijkheden van Lake Formation en Data Catalog worden getoond:

We groeperen de nieuwe mogelijkheden in vier categorieën:

  • Ontdek en beveilig
  • Maak verbinding met het delen van gegevens
  • Schaal en optimaliseer
  • Auditeren en monitoren

Laten we dieper duiken en de nieuwe mogelijkheden bespreken die in 2023 zijn geïntroduceerd.

Ontdek en beveilig

Met behulp van Lake Formation en de Data Catalog als fundamentele bouwstenen hebben we gelanceerd Amazon DataZone in oktober 2023. DataZone is een gegevensbeheerservice waarmee u sneller en eenvoudiger gegevens kunt catalogiseren, ontdekken, delen en beheren die zijn opgeslagen in AWS, op locatie en bronnen van derden. De publicatie- en abonnementsworkflows van DataZone verbeteren de samenwerking tussen verschillende rollen in uw organisatie en versnellen de tijd om zakelijke inzichten uit uw gegevens te halen. U kunt de technische metadata van de Data Catalog met behulp van AI-aangedreven assistenten verbeteren tot zakelijke metadata van DataZone, waardoor deze gemakkelijker vindbaar worden. DataZone beheert automatisch de rechten van uw gedeelde gegevens in de DataZone-projecten. Voor meer informatie over DataZone raadpleegt u de Gebruikershandleiding. Bienvenue in DataZone!

AWS-lijmcrawlers classificeer gegevens om de indeling, het schema en de bijbehorende eigenschappen van de onbewerkte gegevens te bepalen, groepeer gegevens in tabellen of partities en schrijf metagegevens naar de gegevenscatalogus. In 2023 hebben we verschillende updates uitgebracht voor AWS Glue-crawlers. We hebben de mogelijkheid toegevoegd om uw aangepaste versies van JDBC-stuurprogramma's in crawlers om gegevensschema's uit uw gegevensbronnen te extraheren en de gegevenscatalogus te vullen. Om het ophalen van partities te optimaliseren en de queryprestaties te verbeteren, hebben we de functie voor crawlers toegevoegd automatisch partitie-indexen toevoegen voor nieuw ontdekte tabellen. Wij ook geïntegreerde crawlers met Lake Formation, ter ondersteuning van gecentraliseerde machtigingen voor het crawlen van S3-datameren binnen en tussen accounts. Dit zijn enkele veelgevraagde verbeteringen die het ontdekken van metagegevens met behulp van crawlers vereenvoudigen. Kruipers, groet!

We hebben ook een enorme stijging gezien in het gebruik van open table formats (OTF’s) zoals Linux Foundation Delta Lake, Apache-ijsberg en Apache Hudi. Om deze populaire OTF's te ondersteunen, hebben we ondersteuning toegevoegd om deze drie tabelindelingen native in de gegevenscatalogus te crawlen. Verder hebben we samengewerkt met andere AWS-analysediensten, zoals Amazon EMR, om gedetailleerde machtigingen voor Lake Formation in te schakelen alle drie open tafelformaten. Wij moedigen u aan om te verkennen welke functies van Lake Formation worden ondersteund voor OTF-tabellen. Bien integré!

Naarmate het aantal gegevensbronnen en -typen in de loop van de tijd toeneemt, zult u vroeg of laat ongetwijfeld geneste gegevenstypen in uw datameer hebben. Om databeheer naar deze datasets te brengen zonder ze plat te maken, heeft Lake Formation ondersteuning toegevoegd voor fijnmazige toegangscontroles geneste gegevenstypen en kolommen. We hebben ook ondersteuning toegevoegd voor fijnmazige toegangscontroles van Lake Formation tijdens het hardlopen Apache Hive-taken op Amazon EMR op EC2 of via Amazon EMR-studio. Met Amazon EMR Serverloos, nu is er een fijnmazige toegangscontrole met Lake Formation beschikbaar in voorvertoning. Verbind de punten!

Bij AWS werken we zeer nauw samen met onze klanten om hun ervaring te begrijpen. We kwamen erachter dat de introductie bij Lake Formation vandaan kwam AWS Identiteits- en toegangsbeheer (IAM) gebaseerde machtigingen voor Amazon S3 en de AWS Glue Data Catalog kunnen worden gestroomlijnd. We realiseerden ons dat uw gebruiksscenario's meer flexibiliteit in databeheer nodig hebben. Met de hybride toegangsmodus in Lake Formation hebben we selectieve toevoeging van Lake Formation-machtigingen geïntroduceerd voor sommige gebruikers en databases, zonder andere gebruikers en werklasten te onderbreken. U kunt een catalogustabel in de hybride modus definiëren en toegang verlenen aan nieuwe gebruikers, zoals data-analisten en datawetenschappers, met behulp van Lake Formation, terwijl uw productie-extractie-, transformatie- en laadpijplijnen (ETL) hun bestaande op IAM gebaseerde machtigingen blijven gebruiken. Dubbele overwinning!

Laten we het hebben over identiteitsmanagement. U kunt IAM-principals gebruiken, Amazon Snel zicht gebruikers en groepen, en externe accounts en IAM-principals in externe accounts om toegang te verlenen tot Data Catalog-bronnen in Lake Formation. Hoe zit het met uw bedrijfsidentiteit? Moet u meerdere IAM-rollen creëren en onderhouden en deze koppelen aan verschillende bedrijfsidentiteiten? U kon de IAM-rol zien die toegang had tot de tabel, maar hoe kon u erachter komen welke gebruiker er toegang toe had? Om deze vragen te beantwoorden, Lake Formation geïntegreerd met AWS IAM Identity Center en de functie voor vertrouwde identiteitsdoorgifte toegevoegd. Hiermee kunt u fijnmazige toegangsrechten verlenen aan de identiteiten van de bestaande identiteitsprovider van uw organisatie. Ander AWS-analysediensten ondersteunen ook de uit te dragen gebruikersidentiteit. Uw auditors kunnen nu zien dat de gebruiker john@anycompany.com, had bijvoorbeeld toegang gekregen tot de tabel die werd beheerd door Lake Formation-machtigingen met behulp van Amazone Athene, Amazon EMR, en Amazon Roodverschuivingsspectrum. Integratie gemakkelijk!

U hoeft zich nu geen zorgen meer te maken over het verplaatsen van de gegevens of het kopiëren van de gegevenscatalogus naar een andere AWS-regio om de AWS-services voor gegevensbeheer te gebruiken. We hebben uitgebreid en gemaakt Lake Formation beschikbaar in alle regio's in 2023. En voila!

Maak verbinding met het delen van gegevens

Lake Formation biedt een eenvoudige manier om Data Catalog-objecten zoals databases en tabellen te delen met interne en externe gebruikers. Dit mechanisme geeft organisaties snelle en veilige toegang tot gegevens en versnelt de zakelijke besluitvorming. Laten we eens kijken naar de nieuwe functies en verbeteringen die in 2023 onder dit thema zijn doorgevoerd.

De AWS Glue Data Catalog is het centrale en fundamentele onderdeel van data governance voor zowel Lake Formation als DataZone. In 2023 hebben we de Data Catalogus via federatie uitgebreid naar integreren met externe Apache Hive-metastores en Roodverschuiving datashares. Wij hebben het ook ter beschikking gesteld de connectorcode, die u kunt aanpassen om de gegevenscatalogus te verbinden met extra Apache Hive-compatibele metastores. Deze integraties maken de weg vrij om meer metadata in de Data Catalog te krijgen en maken fijnmazige toegangscontroles en het moeiteloos delen van deze bronnen tussen AWS-accounts mogelijk met Lake Formation-machtigingen. We hebben ook ondersteuning toegevoegd voor toegang tot de gegevenscatalogustabel van de ene regio vanuit andere regio's links naar bronnen tussen verschillende regio's. Deze verbetering vereenvoudigt veel gebruiksscenario's om duplicatie van metagegevens te voorkomen.

Met de AWS CloudTrail Lake-federatie Met deze functie kunt u CloudTrail Lake-gegevens ontdekken, analyseren, samenvoegen en delen met andere gegevensbronnen in Data Catalog. Voor CloudTrail Lake zijn fijnmazige toegangscontroles en query- en visualisatiemogelijkheden beschikbaar via Athena.

We hebben de Data Catalog-mogelijkheden verder uitgebreid om uniform te ondersteunen . in uw datameer. U kunt weergaven maken met behulp van verschillende SQL-dialecten en query's van Athena, Redshift Spectrum en Amazon EMR. Hierdoor kunt u de machtigingen op weergaveniveau behouden en de afzonderlijke tabellen niet delen. De functie Gegevenscatalogusweergaven is beschikbaar in voorvertoning, aangekondigd op re:Invent 2023.

Schaal en optimaliseer

Naarmate SQL-query's complexer worden naarmate de gegevens in de loop van de tijd veranderen of meerdere joins hebben, kan een op kosten gebaseerde optimizer (CBO) optimalisaties in het queryplan aansturen en tot snellere prestaties leiden, op basis van statistieken van de gegevens in de tabellen. In 2023 hebben we ondersteuning toegevoegd voor Statistieken op kolomniveau voor tabellen in de gegevenscatalogus. Klanten zien al verbeteringen in de prestatie van zoekopdrachten in Athena en Redshift Spectrum, met tabelkolomstatistieken ingeschakeld. Suivez les chiffres!

Op tags gebaseerde toegangscontrole maakt het niet meer nodig om uw beleid bij te werken telkens wanneer een nieuwe bron aan het datameer wordt toegevoegd. In plaats daarvan maken data lake-beheerders Lake Formation Tags (LF-Tags) om Data Catalog-objecten te taggen en op basis van deze LF-Tags toegang te verlenen aan gebruikers en groepen. In 2023 hebben we ondersteuning toegevoegd voor LF-Tag-delegatie, waar data lake-beheerders toestemming kunnen geven aan datastewards en andere gebruikers om LF-Tags te beheren zonder dat beheerdersrechten nodig zijn. LF-Tag democratisering!

Het Apache Iceberg-formaat gebruikt metadata om de gegevensbestanden bij te houden waaruit de tabel bestaat. Wijzigingen in tabellen, zoals invoegingen of updates, resulteren in het aanmaken van nieuwe gegevensbestanden. Naarmate het aantal gegevensbestanden voor een tabel groeit, kunnen de query's die die tabel gebruiken minder efficiënt worden. Om de queryprestaties op de ijsbergtabel te verbeteren, moet u het aantal gegevensbestanden verminderen door de kleinere bestanden voor het vastleggen van wijzigingen in grotere bestanden te comprimeren. Gebruikers maken en voeren doorgaans scripts uit om de optimalisatie van deze Iceberg-tabelbestanden uit te voeren op hun eigen servers of via AWS Glue ETL. Om dit complexe onderhoud van Iceberg-tafels te verlichten, benaderden klanten ons voor een betere oplossing. We hebben de functie geïntroduceerd voor automatische verdichting van Apache Iceberg-tafels in de gegevenscatalogus. Nadat u automatische compactie heeft ingeschakeld, beheert de Data Catalog automatisch de metagegevens van de tabel en krijgt u een altijd geoptimaliseerde Amazon S3-indeling voor uw Iceberg-tabellen. Voor meer informatie, kijk op IJsbergtabellen optimaliseren. Automatiek!

Auditeren en monitoren

Weten wie toegang heeft tot welke gegevens is een cruciaal onderdeel van databeheer. Auditors moeten valideren dat de juiste metagegevens en gegevensmachtigingen zijn ingesteld in Lake Formation en de gegevenscatalogus. Data Lake-beheerders hebben volledige toegang tot machtigingen en metadata, en kunnen toegang verlenen tot de gegevens zelf. Om auditors de mogelijkheid te bieden om machtigingen voor metagegevens te zoeken en te beoordelen zonder hen toegang te verlenen om wijzigingen in machtigingen aan te brengen, hebben we de alleen-lezen beheerdersrol in de vorming van meren. Met deze rol kunt u de metagegevens van de catalogus, de machtigingen voor Lake Formation en de LF-Tags controleren, terwijl u ervoor zorgt dat er geen wijzigingen in kunnen worden aangebracht.

Conclusie

We hebben een geweldig 2023 gehad, waarin we productverbeteringen hebben ontwikkeld om u te helpen uw databeheer te vereenvoudigen en te verbeteren met behulp van Lake Formation en Data Catalog. Wij nodigen u uit om deze nieuwe functies uit te proberen. Hieronder vindt u een lijst met onze lanceerposten ter referentie:

  • Data Catalog- en crawlerfuncties:
  • Kenmerken van Lake Formation:

We zullen in 2024 blijven innoveren namens onze klanten. Deel uw gedachten, gebruiksscenario's en feedback voor onze productverbeteringen in het opmerkingengedeelte of via uw AWS-accountteams. Wij wensen u een gelukkig en voorspoedig 2024. Gelukkig nieuwjaar!


Over de auteurs

Aarthi Srinivasan is een Senior Big Data Architect bij AWS Lake Formation. Ze bouwt graag data lake-oplossingen voor AWS-klanten en -partners. Als ze niet achter het toetsenbord zit, verkent ze de nieuwste wetenschappelijke en technologische trends en brengt ze tijd door met haar gezin.

Leon Stigter is een Senior Technisch Product Manager bij AWS Lake Formation. De focus van Leon ligt op het helpen van ontwikkelaars om sneller datameren te bouwen, met naadloze connectiviteit met analytische tools, om data om te zetten in baanbrekende inzichten. Leon is geïnteresseerd in data en serverloze technologieën, en verkent graag verschillende steden tijdens zijn missie om overal cheesecake te proeven.

spot_img

Laatste intelligentie

spot_img