Zephyrnet-logotyp

AWS Lake Formation 2022 år i recension

Datum:

Datastyrning är en samling av policyer, processer och system som organisationer använder för att säkerställa kvaliteten och lämplig hantering av deras data under hela dess livscykel i syfte att skapa affärsvärde. Datastyrning är alltmer i fokus för kunder eftersom de ser data som en av sina viktigaste tillgångar. Effektiv datastyrning möjliggör bättre beslutsfattande genom att förbättra datakvaliteten, minska datahanteringskostnaderna och säkerställa säker tillgång till data för intressenter. Dessutom krävs datastyrning för att följa en allt mer komplex lagstiftningsmiljö med datasekretess (som GDPR och CCPA) och datauppehållsbestämmelser (som i EU, Ryssland och Kina).

För AWS-kunder förbättrar effektiv datastyrning beslutsfattande, ökar verksamhetens smidighet, ger en konkurrensfördel och minskar risken för böter på grund av bristande efterlevnad av regulatoriska skyldigheter. Vi förstår den unika möjligheten att ge våra kunder en heltäckande end-to-end datastyrningslösning som är sömlöst integrerad i vår portfölj av tjänster, och AWS Lake Formation och AWS limdatakatalog är nyckeln till att lösa dessa utmaningar.

I det här inlägget är vi glada över att sammanfatta funktionerna som AWS Glue Data Catalog, AWS Glue crawler och Lake Formation-team levererade 2022. Vi har samlat några av de viktigaste samtalen och lösningarna om datastyrning, datanät och modern data arkitektur publicerad och presenterad i AWS re:Invent 2022, och några datasjölösningar byggda av kunder och AWS-partners för enkel referens. Oavsett om du är en dataplattformsbyggare, dataingenjör, datavetare eller någon teknikledare som är intresserad av datasjölösningar är det här inlägget för dig.

För att lära dig mer om hur kunder säkrar och delar data med Lake Formation rekommenderar vi att du går djupare in i GoDaddys decentraliserat datanät, Novo Nordisks modern dataarkitektur, och JPMorgans förbättringar av deras Federated Data Lake, en styrd datamesh-implementering som använder Lake Formation. Du kan också lära dig hur AWS Partners integrerade med Lake Formation för att hjälpa kunder att bygga unika datasjöar, i Starbursts datanätlösning, Informaticas automatiserad datadelningslösning, Ahanas Presto integration med Lake Formation, Ascendings sed datastyrningssystem, hur PBS användes maskininlärning på sina datasjöar, och hur hc1 ger personliga hälsoinsikter för kunder.

Du kan granska hur Lake Formation används av kunder för att bygga moderna dataarkitekturer i följande re:Invent 2022-samtal:

Lake Formation-teamet lyssnade på kundfeedback och gjorde förbättringar inom områdena datastyrning över flera konton, utökade källan till datasjöar, möjliggjorde enhetlig datastyrning av en företagsdatakatalog, vilket gjorde säker datadelning mellan företag och företag möjlig, och utöka täckningsområdet för finkorniga åtkomstkontroller till Amazon RedShift. I resten av det här inlägget delar vi gärna de framsteg vi gjorde under 2022.

Förbättra styrning över flera konton

Lake Formation utgör grunden för kunder att dela data mellan konton inom sin organisation. Du kan dela AWS Glue Data Catalog-resurser till AWS identitets- och åtkomsthantering (IAM) huvudmän inom ett konto såväl som andra AWS-konton med två metoder. Den första kallas named-resource-metoden, där användare kan välja namn på databaser och tabeller och välja vilken typ av behörigheter som ska delas. Den andra metoden använder LF-taggar, där användare kan skapa och associera LF-taggar till databaser och tabeller och ge tillstånd till IAM-principaler med hjälp av LF-Tag-policyer och uttryck.

I november 2022 introducerade Lake Formation version 3 av sin funktionen för delning över flera konton. Med denna nya version kan Lake Formation-användare dela katalogresurser med hjälp av LF-taggar på AWS-organisationer nivå. Att dela data med LF-taggar hjälper till att skala behörigheter och minskar adminarbetet för datasjöbyggare. Med version 3 för delning över flera konton kan du också dela resurser till specifika IAM-huvudmän på andra konton, vilket ger dataägare kontroll över vem som kan komma åt deras data på andra konton. Slutligen har vi tagit bort överkostnaderna med att skriva och underhålla datakatalogresurspolicyer genom att introducera AWS Resource Access Manager (AWS RAM)-inbjudningar med LF-taggar-baserade policyer i version 3 för delning över flera konton. Vi uppmuntrar dig att utforska ytterligare delning mellan konton i Lake Formation.

Utöka Lake Formation-behörigheterna till ny data

Fram till re:Invent 2022 tillhandahöll Lake Formation behörighetshantering för IAM-huvudmän på Data Catalog-resurser med underliggande data främst på Amazon enkel lagringstjänst (Amazon S3). På re:Invent 2022 introducerade vi Lake Formation-behörighetshantering för Amazon Redshift-datadelning i förhandsgranskningsläge. Amazon Redshift är en helt hanterad, petabyte-skala datalagertjänst i AWS-molnet. De datadelningsfunktion tillåter dataägare att gruppera databaser, tabeller och vyer i ett Amazon Redshift-kluster och dela det med andra Amazon Redshift-kluster inom eller mellan AWS-konton. Datadelning minskar behovet av att behålla flera kopior av samma data i olika datalager för att påskynda affärsbeslut i en organisation. Lake Formation förbättrar ytterligare datadelning inom Amazon Redshift-datadelning genom att tillhandahålla finkornig åtkomstkontroll på tabeller och vyer.

För ytterligare information om denna funktion, se AWS Lake Formation-hanterade Redshift-datadelningar (förhandsgranskning) och Hur Redshift-datadelning kan hanteras av Lake Formation.

Amazon EMR är en hanterad klusterplattform för att köra big data-applikationer med Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi och Presto i stor skala. Du kan använda Amazon EMR för att köra batch- och streambearbetningsanalysjobb på dina S3-datasjöar. Från och med Amazon EMR release 6.7.0 introducerade vi Lake Formation-behörighetshantering för en körtid IAM-roll används med EMR Steps API. Den här funktionen gör att du kan skicka Apache Spark- och Apache Hive-applikationer till ett EMR-kluster via EMR Steps API som upprätthåller tabellnivå- och kolumnnivåbehörigheter med Lake Formation till den IAM-rollen som skickar in applikationen. Denna Lake Formation-integrering med Amazon EMR låter dig dela ett EMR-kluster mellan flera användare i en organisation med olika behörigheter genom att isolera dina applikationer genom en runtime IAM-roll. Vi uppmuntrar dig att kontrollera denna funktion i Lake Formation-verkstaden Integration med Amazon EMR med hjälp av Runtime-roller. För att utforska ett användningsfall, se Introduktion av runtime-roller för Amazon EMR-steg: Använd IAM-roller och AWS Lake Formation för åtkomstkontroll med Amazon EMR.

Amazon SageMaker Studio är en helt integrerad utvecklingsmiljö (IDE) för maskininlärning (ML) som gör det möjligt för datavetare och utvecklare att förbereda data för att bygga, träna, trimma och distribuera modeller. Studio erbjuder en inbyggd integration med Amazon EMR så att datavetare och dataingenjörer interaktivt kan förbereda data i petabyte-skala med hjälp av ramverk med öppen källkod som Apache Spark, Presto och Hive med Studio-anteckningsböcker. Med utgivningen av Lake Formation-behörighetshantering för en körtid IAM-roll, Studio stöder nu åtkomst på tabellnivå och kolumnnivå med Lake Formation. När användare ansluter till EMR-kluster från Studio-anteckningsböcker kan de välja IAM-rollen (kallad runtime IAM-roll) som de vill komma i kontakt med. Om dataåtkomst hanteras av Lake Formation kan användare tvinga på tabellnivå- och kolumnnivåbehörigheter med hjälp av policyer kopplade till runtime-rollen. För mer information, se Tillämpa finkorniga dataåtkomstkontroller med AWS Lake Formation och Amazon EMR från Amazon SageMaker Studio.

Inta och katalogisera varierad data

En robust datastyrningsmodell inkluderar data från en organisations många datakällor och metoder för att upptäcka och katalogisera dessa olika datatillgångar. AWS Glue-sökrobotar ger möjlighet att upptäcka data från källor inklusive Amazon S3, Amazon Redshift och NoSQL-databaser, och fylla i AWS Glue Data Catalog.

2022 lanserade vi AWS Glue crawler-stöd för Snowflake och AWS Glue crawler-stöd för Delta Lake-bord. Dessa integrationer tillåter AWS Glue-sökrobotar att skapa och uppdatera Data Catalog-tabeller baserat på dessa populära datakällor. Detta gör det ännu enklare att skapa extrahera, transformera och ladda (ETL) jobb med AWS Glue baserat på dessa Data Catalog-tabeller som källor och mål.

År 2022 gjordes om AWS Glue Crawlers UI för att erbjuda en bättre användarupplevelse. En av de viktigaste förbättringarna som levereras som en del av denna revision är de större insikterna i AWS Glue-sökrobothistorik. Användargränssnittet för sökrobothistorik ger en enkel översikt över sökrobotkörningar, scheman, datakällor och taggar. För varje genomsökning ger sökrobothistoriken en sammanfattning av ändringar i databasschemat eller Amazon S3-partitionsändringar. Sökrobothistorik ger också detaljerad information om DPU-timmar och minskar tiden som ägnas åt att analysera och felsöka sökrobotens operationer och kostnader. För att utforska de nya funktionerna som lagts till i sökrobotens användargränssnitt, se Konfigurera och övervaka AWS Glue-sökrobotar med det förbättrade AWS Glue-gränssnittet och sökrobothistoriken.

Under 2022 utökade vi också stödet för sökrobotar baserade på Amazon S3-händelsemeddelanden för att stödja katalogtabeller. Med den här funktionen kan inkrementell genomsökning avlastas från datapipelines till den schemalagda AWS Glue-sökroboten, vilket minskar genomsökningar till inkrementella S3-händelser. För mer information, se Bygg inkrementella genomsökningar av datasjöar med befintliga Glue-katalogtabeller.

Fler sätt att dela data utanför datasjön

Under re:Invent 2022 tillkännagav vi en förhandstitt på AWS Data Exchange för AWS Lake Formation, en ny funktion som gör det möjligt för dataprenumeranter att hitta och prenumerera på datauppsättningar från tredje part som hanteras direkt genom Lake Formation. Tills nu, AWS datautbyte prenumeranter kunde få åtkomst till tredjepartsdatauppsättningar genom att exportera leverantörernas filer till sina egna S3-hinkar, anropa leverantörernas API:er via Amazon API Gateway, eller frågar efter producenters Amazon Redshift-dataandelar från deras Amazon Redshift-kluster. Med den nya Lake Formation-integrationen sammanställer dataleverantörer AWS Data Exchange-datauppsättningar med hjälp av Lake Formation-taggar. Dataprenumeranter kan fråga och utforska databaserna och tabellerna som är associerade med dessa taggar, precis som vilken annan AWS Glue Data Catalog-resurs som helst. Organisationer kan tillämpa resursbaserade Lake Formation-behörigheter för att dela de licensierade datamängderna inom samma konto eller mellan konton med AWS License Manager. AWS Data Exchange för Lake Formation effektiviserar datalicensiering och delning genom att accelerera datainsättningen, minska mängden ETL som krävs för slutanvändare att få åtkomst till tredjepartsdata och centralisera styrning och åtkomstkontroller för tredjepartsdata.

På re:Invent 2022 meddelade vi också Amazon DataZone, en ny datahanteringstjänst som gör det snabbare och enklare för dig att katalogisera, upptäcka, dela och styra data som lagras över AWS, lokala källor och tredjepartskällor. Amazon DataZone är en affärsdatakatalogtjänst som kompletterar den tekniska metadatan i AWS Glue Data Catalog. Amazon DataZone är integrerad med Lake Formation-behörighetshantering så att du effektivt kan hantera och styra åtkomsten till dina data och granska vem som har åtkomst till vilken data och för vilket ändamål. Med Amazon DataZones utgivare-prenumerantmodell kan datatillgångar delas och nås över regioner. För ytterligare information om tjänsten och dess möjligheter, se Vanliga frågor om Amazon DataZone och re: Invent launch.

Slutsats

Data förändrar varje område och varje verksamhet. Men med data som växer snabbare än vad de flesta företag kan hålla reda på, är det en utmanande sak att samla in, säkra och få ut värdet av denna data. En modern datastrategi kan hjälpa dig att skapa bättre affärsresultat med data. AWS tillhandahåller den mest kompletta uppsättningen tjänster för hela dataresan för att hjälpa dig att låsa upp värde från din data och omvandla den till insikt.

På AWS arbetar vi bakåt från kundernas krav. Från Lake Formation-teamet arbetade vi hårt för att leverera funktionerna som beskrivs i det här inlägget, och vi inbjuder dig att kolla in dem. Med vårt fortsatta fokus på att uppfinna hoppas vi kunna spela en nyckelroll i att ge organisationer möjlighet att bygga nya datastyrningsmodeller som hjälper dig att få mer affärsvärde med blixtens hastighet.

Du kan komma igång med Lake Formation genom att utforska vår praktisk verkstad moduler och Komma igång tutorials. Vi ser fram emot att höra från er, våra kunder, om er datasjö och användningsfall för datastyrning. Vänligen kontakta ditt AWS-kontoteam och dela dina kommentarer.


Om författarna

Jason Berkowitz är senior produktchef med AWS Lake Formation. Han kommer från en bakgrund inom maskininlärning och datasjöarkitekturer. Han hjälper kunder att bli datadrivna.

Aarthi Srinivasan är senior Big Data Architect med AWS Lake Formation. Hon tycker om att bygga datasjölösningar för AWS-kunder och partners. När hon inte använder tangentbordet utforskar hon de senaste vetenskaps- och tekniktrenderna och umgås med sin familj.

Leonardo Gomez är Senior Analytics Specialist Solutions Architect på AWS. Baserad i Toronto, Kanada, har han över ett decenniums erfarenhet av datahantering och hjälper kunder över hela världen att möta sina affärsbehov och tekniska behov.

plats_img

Senaste intelligens

plats_img