Zephyrnet-logo

Evolutie in ETL: hoe het overslaan van transformatie het gegevensbeheer verbetert – KDnuggets

Datum:

Evolutie in ETL: hoe het overslaan van transformatie het gegevensbeheer verbetert
Afbeelding door redacteur
 

Er zijn maar weinig dataconcepten die meer polariserend zijn dan ETL (extract-transform-load), de voorbereidingstechniek die de bedrijfsactiviteiten al tientallen jaren domineert. ETL werd ontwikkeld in de jaren zeventig en schitterde in een tijdperk van grootschalige datawarehouses en repositories. Enterprise-datateams centraliseerden data, gelaagde rapportagesystemen en datawetenschapsmodellen erbovenop, en maakten self-servicetoegang tot business intelligence (BI)-tools mogelijk. ETL heeft echter zijn leeftijd laten zien in een tijdperk van clouddiensten, datamodellen en digitale processen.  

Zoekopdrachten zoals 'Is ETL nog steeds relevant/veelgevraagd/verouderd/dood?' resultaten op Google invullen. De reden hiervoor is dat bedrijfsdatateams zuchten onder het gewicht van het voorbereiden van data voor wijdverbreid gebruik in werknemersrollen en bedrijfsfuncties. ETL is niet gemakkelijk schaalbaar om grote hoeveelheden historische gegevens te verwerken die in de cloud zijn opgeslagen. Het levert ook geen realtime gegevens op die nodig zijn voor snelle besluitvorming door leidinggevenden. Bovendien zorgt het bouwen van op maat gemaakte API's om applicaties van data te voorzien voor aanzienlijke beheercomplexiteit. Het is niet ongebruikelijk dat moderne ondernemingen over 500 tot 1,000 pipelines beschikken terwijl ze data willen transformeren en gebruikers willen voorzien van self-service toegang tot BI-tools. Deze API's bevinden zich echter in een constante staat van ontwikkeling, omdat ze opnieuw moeten worden geprogrammeerd wanneer de gegevens die ze ophalen, veranderen. Het is duidelijk dat dit proces te broos is voor veel moderne datavereisten, zoals edge-gebruiksscenario's. 

Bovendien zijn de toepassingsmogelijkheden geëvolueerd. Bronsystemen bieden bedrijfslogica en hulpmiddelen om de datakwaliteit af te dwingen, terwijl de verbruikende applicaties datatransformatie mogelijk maken en een robuuste semantische laag bieden. Teams worden dus minder gestimuleerd om point-to-point-interfaces te bouwen om gegevens op schaal te verplaatsen, te transformeren en in het datawarehouse te laden. 

Twee innovatieve technieken wijzen de weg naar het mogelijk maken van datademocratisering en tegelijkertijd het minimaliseren van de transformatielasten. Zero ETL maakt data beschikbaar zonder deze te verplaatsen, terwijl reverse ETL data pusht in plaats van trekt naar de applicaties die deze nodig hebben zodra deze beschikbaar zijn. 

Zero ETL optimaliseert de verplaatsing van kleinere datasets. Met datareplicatie worden gegevens in de huidige staat naar de cloud verplaatst voor gebruik met dataquery's of experimenten. 

Maar wat als teams helemaal geen data willen verplaatsen?

Datavirtualisatie abstraheert servers van eindgebruikers. Wanneer gebruikers gegevens uit één enkele bron opvragen, wordt die uitvoer naar hen teruggestuurd. En met queryfederatie kunnen gebruikers meerdere gegevensbronnen opvragen. De tool combineert resultaten en presenteert de gebruiker geïntegreerde dataresultaten. 

Deze technieken worden zero ETL genoemd omdat het niet nodig is een pijplijn te bouwen of gegevens te transformeren. Gebruikers kunnen direct omgaan met gegevenskwaliteit en aggregatiebehoeften. 

Zero ETL is bij uitstek geschikt voor ad-hocanalyse van kortetermijngegevens, omdat het uitvoeren van grote queries op historische gegevens de operationele prestaties kan schaden en de kosten voor gegevensopslag kan verhogen. Veel leidinggevenden in de detailhandel en consumentenverpakkingen gebruiken bijvoorbeeld nul-ETL om dagelijkse transactiegegevens op te vragen om marketing- en verkoopstrategieën te focussen in tijden van piekvraag, zoals de feestdagen. 

Google Cortex biedt versnellers, waardoor nul ETL mogelijk is SAP-resourceplanning voor ondernemingen systeemgegevens. Andere bedrijven, zoals een van de grootste retailers ter wereld en een mondiaal voedsel- en drankenbedrijf, hebben ook zero-ETL-processen ingevoerd. 

Nul ETL-winst omvat: 

  • Snelheid bieden voor toegang: Door gebruik te maken van nul-ETL-processen voor het leveren van gegevens voor zelfbedieningsquery's bespaart u 40-50% van de tijd die nodig is bij het gebruik van traditionele ETL-processen, omdat er geen pijplijnen hoeven te worden gebouwd.
  • Vermindering van de vereisten voor gegevensopslag: Gegevens verplaatsen zich niet met datavirtualisatie of queryfederatie. Gebruikers slaan alleen zoekopdrachtresultaten op, waardoor de opslagvereisten afnemen.
  • Kostenbesparingen realiseren: Teams die nul-ETL-processen gebruiken, besparen 30-40% op gegevensvoorbereiding en opslagkosten in vergelijking met traditionele ETL.
  • Gegevensprestaties verbeteren: Omdat gebruikers alleen de gewenste gegevens opvragen, worden de resultaten 25% sneller geleverd.  

Om met nul ETL aan de slag te gaan, moeten teams evalueren welke gebruiksscenario's het meest geschikt zijn voor deze techniek en de data-elementen identificeren die ze nodig hebben om deze uit te voeren. Ze moeten ook hun nul-ETL-tool configureren om naar de gewenste gegevensbronnen te verwijzen. Teams extraheren vervolgens gegevens, creëren gegevensassets en stellen deze bloot aan downstreamgebruikers. 

Reverse ETL-technieken vereenvoudigen datastromen naar downstream-applicaties. In plaats van REST API's of eindpunten te gebruiken en scripts te schrijven om gegevens op te halen, maken teams gebruik van omgekeerde ETL-tools om gegevens op tijd en volledig in bedrijfsprocessen te pushen. 

Het gebruik van omgekeerde ETL biedt de volgende voordelen:

  • Tijd en moeite verminderen: Het gebruik van omgekeerde ETL voor belangrijke gebruiksscenario's vermindert de tijd en moeite om toegang te krijgen tot gegevens voor belangrijke gebruiksscenario's met 20-25%. Een toonaangevende cruisemaatschappij maakt gebruik van reverse ETL voor digitale marketinginitiatieven.
  • Verbetering van de beschikbaarheid van gegevens: Teams hebben meer zekerheid dat ze toegang hebben tot de gegevens die ze nodig hebben voor belangrijke initiatieven, aangezien 90-95% van de doelgegevens op tijd wordt aangeleverd.
  • Dalende kosten: Omgekeerde ETL-processen verminderen de behoefte aan API's, die gespecialiseerde programmeervaardigheden vereisen, en verhogen de complexiteit van het beheer. Als gevolg hiervan verlagen teams de datakosten met 20-25%. 

Om aan de slag te gaan met reverse ETL moeten datateams gebruiksscenario's evalueren waarvoor on-demand data nodig zijn. Vervolgens bepalen ze de frequentie en het volume van de aan te leveren gegevens en kiezen ze de juiste tools om deze datavolumes te verwerken. Vervolgens verwijzen ze gegevensassets in het datawarehouse naar hun bestemmingsconsumptiesystemen. Teams moeten een prototype maken met één datalading om de efficiëntie te meten en processen te schalen. 

Zero ETL- en reverse ETL-tools bieden teams nieuwe opties voor het aanbieden van gegevens aan gebruikers en applicaties. Ze kunnen factoren zoals gebruiksvereisten, datavolumes, leveringstermijnen en kostenfactoren analyseren om de beste optie voor het leveren van data te selecteren, of het nu gaat om traditionele ETL, nul-ETL of omgekeerde ETL.

Partners ondersteunen deze inspanningen door inzicht te bieden in de beste technieken en tools om aan functionele en niet-functionele vereisten te voldoen, een gewogen scorekaart te bieden, een proof of value (POV) uit te voeren met de winnende tool en de tool vervolgens te operationaliseren voor meer gebruiksscenario's. 

Met nul ETL en omgekeerde ETL bereiken datateams hun doelen: gebruikers en applicaties voorzien van de data die ze nodig hebben, waar en wanneer ze die nodig hebben, waardoor kosten- en prestatiewinst worden behaald en transformatieproblemen worden vermeden. 
 
 

Arnab senis een ervaren professional met een carrière van meer dan 16 jaar in de technologie- en beslissingswetenschapindustrie. Momenteel is hij VP-Data Engineering bij Tredence, een vooraanstaand data-analysebedrijf, waar hij organisaties helpt bij het ontwerpen van hun AI-ML/Cloud/Big-data-strategieën. Met zijn expertise op het gebied van het genereren van inkomsten uit data ontdekt Arnab het latente potentieel van data om bedrijfstransformaties te stimuleren bij B2B- en B2C-klanten uit diverse sectoren.
 
Arnab's passie voor teambuilding en zijn vermogen om mensen, processen en vaardigheden op te schalen, hebben hem geholpen bij het succesvol beheren van portefeuilles van meerdere miljoenen dollars in verschillende branches, waaronder telecom, retail en BFSI. Hij heeft eerder functies bekleed bij Mu Sigma en IGate, waar hij een cruciale rol speelde bij het oplossen van de problemen van klanten door het ontwikkelen van innovatieve oplossingen.
 
Arnab's uitzonderlijke leiderschapskwaliteiten en diepgaande domeinkennis hebben hem een ​​zetel in de Forbes Tech Council opgeleverd.

spot_img

Laatste intelligentie

spot_img