Zephyrnet-logotyp

Datapipelines: En översikt

Datum:

Precis som leverantörer förlitar sig på amerikansk post eller UPS för att få sina varor till kunder, räknar arbetarna med datapipelines för att leverera den information de behöver för att få affärsinsikter och fatta beslut. Detta nätverk av datakanaler, som verkar i bakgrunden, distribuerar bearbetad data över datorsystem, en viktig ram och funktion för alla data driven företag.

Värdet av att koppla datasystem med pipelines fortsätter att växa eftersom företag behöver konsumera massor av strömmande data snabbare, serverad i olika format. Så chefer som förstår datapipelines på en hög nivå kan bättre flytta rådata mot informationen som ses på instrumentpaneler eller rapporter, mest ekonomiskt. 

Vad är datapipelines?

Datapipelines beskriver databehandlingselement seriekopplade, med datautgången från en kanal som fungerar som ingång för nästa. Dessa ledningar börjar vid källan, där system tar upp den genom att flytta eller replikera den och flytta den till en ny destination. 

Datorprogram skapar, modifierar, omvandlar eller paketerar sina indata till ett mer förfinad dataprodukt på den nya platsen. Sedan kan ett annat datorsystem ta de bearbetade datautgångarna, i sin datapipeline, som indata. 

Data fortsätter längs varje anslutning och genom olika rengöringsprocesser och pipelines tills den når ett förbrukningsbart tillstånd. Sedan använder de anställda det på jobbet, eller att data lagras i ett arkiv, som en datalagret.

Förutom att transportera data, rensar vissa ledningar, omvandlar och omvandlar data när den rör sig genom dem, liknande hur en persons matsmältningskanal bryter ner mat. Andra datakanaler samlar in och analyserar data om det organisationsomfattande pipelinenätverket, och tillhandahåller end-to-end övervakning av dess hälsa, även känd som data observerbarhet.

Varför använder företag datapipelines?

Företag finner bra datapipelines skalbara, flexibla, underhållbara och snabba. Automatiserade datapipelines, skapade och hanterade av algoritmer, kan visas eller dras tillbaka vid behov. Dessutom kan datapipelines dirigera om data till andra kanaler, vilket undviker datastopp och transporterar data snabbt.

Datapipelines bidrar till olika kritiska Datahantering behov i hela företaget. Exempel innefattar:

  • Dataintegration: Anslutningar som paketerar och transporterar data från ett system till ett annat och inkluderar händelsebaserad och batchbearbetning av dataströmmar
  • Datakvalitet/Dataförvaltning: Ledningar som definierar och upprätthåller regler för datakvalitet enligt företagspolicyer och branschföreskrifter för datautmatningen
  • Datakatalogisering/metadatahantering: Pipelines som ansluter och skannar metadata för alla typer av databaser och ger företagsdatakontext 
  • Dataintegritet: Kanaler som upptäcka känsliga uppgifter och skydda mot intrång

Tre utmaningar för organisationer

Organisationer som utnyttjar datapipelines står inför minst tre utmaningar: komplexitet, ökade kostnader och säkerhet.

Komplexitet

Ingenjörer måste bifoga eller ändra datapipelines när affärsdatakraven förändras, vilket ökar komplexiteten i att använda och underhålla kanalerna. Dessutom måste anställda flytta data över sammanlänkade hybridmolnmiljöer, inklusive lokala som är offentligt tillgängliga, som Microsoft Azure. 

Hanterar många olika cloud computing platser lägger till frustrationer med datapipelines på grund av utmaningar med att skala datapipelinenätverket. När ingenjörer misslyckas med att utforma kompetent, datakanalerna över en organisation saktar datarörelsen långsammare eller anställda misslyckas med att få den data de behöver och måste göra ytterligare datarensning.

Gur Steif, VD för digital affärsautomation på BMC Software, berättar om hur företag kämpar att bädda in ett komplicerat pipelinesystem i sina kritiska applikationer. Följaktligen kommer företag att behöva investera i plattformar för orkestrering av dataarbetsflöden som håller dataflödet och kräver sofistikerade Dataops kunskap.

Ökade kostnader

När nyare datateknik dyker upp står företag inför ökade kostnader att modernisera var och en av sina datapipelines för att anpassa sig. Dessutom måste företagen spendera mer på underhåll av rörledningar och för att föra fram teknisk kunskap.

En annan kostnadskälla kommer från förändringar gjorda av ingenjörer uppströms, närmare källan. Ibland kan dessa utvecklare inte direkt se konsekvenserna av sin kod, vilket bryter minst en dataprocess när data färdas ner i pipelines.

Datasäkerhet

Ingenjörer måste säkerställa datasäkerhet för efterlevnad eftersom data strömmar ner genom olika datakanaler till publiken. Till exempel kan företagsrevisorer behöva känslig kreditkortsinformation som skickas genom pipelines som inte ska gå till kundtjänstpersonal. 

Så säkerhetsriskerna ökar om ingenjörer inte har ett sätt att se data när den strömmar ner i pipelinen. Ponemon Research noterar det 63% av säkerhetsanalytiker framhåller bristen på insyn i nätverket och infrastrukturen som en stressfaktor.

Bästa metoder för att använda datapipelines

Att använda datapipelines kräver att man gör en känslig balans när det gäller att göra nödvändig data tillgänglig för användare så snabbt som möjligt till lägsta kostnad för skapande och underhåll. Visst, företag måste välja det bästa Dataarkitektur med säkra, smidiga och operativt robusta datapipelines.

Dessutom måste företag överväga följande:

  • AI och maskininlärningsteknik (ML): Organisationer kommer att förlita sig på ML för att identifiera dataflödesmönster, vilket på bästa sätt optimerar dataflödet till alla delar av organisationen. Dessutom kommer bra ML-tjänster att göra dataflödet mer effektivt genom att underlätta självintegrering, läkning och justering av datapipelines. Till 2025 kommer AI-modeller att ersättas upp till 60% av befintliga, inklusive de med datapipelines byggda på traditionella data.
  • Data observerbarhet: Data observerbarhet ger ingenjörer en holistisk tillsyn över hela datapipeline-nätverket, inklusive dess orkestrering. Med hjälp av dataobservabilitet vet ingenjörer hur datapipelines fungerar och vad som ska ändras, fixas eller beskärs.
  • Metadatahantering: För att få bra dataobservbarhet krävs att man använder metadata på bästa sätt, även känd som data som beskriver data. Följaktligen kommer företag att tillämpa en Metadatahantering struktur för att kombinera befintliga med nya aktiva metadata för att få önskad automatisering, insikt och engagemang över datapipelines.

Verktyg som hjälper till att hantera datapipelines

Företag är beroende av datapipeline-verktyg för att bygga, distribuera och underhålla dataanslutningar. Dessa resurser flyttar data från flera källor till destinationer mer effektivt, stödja end-to-end-processer.

Medan vissa företag planerar att utveckla och underhålla specialiserade interna verktyg, kan de tömma organisationens resurser för att hantera dem, särskilt när data cirkulerar i miljöer med flera moln. Som ett resultat kommer vissa företag att vända sig till tredjepartsleverantörer för att spara dessa kostnader.

Datapipelineverktyg från tredje part finns i två varianter. Vissa generiska samlar in, bearbetar och levererar data över flera molntjänster. Exempel inkluderar:

  • AWS lim: En serverlös låg kod, extrahera, transformera, ladda (ETL) plattform som har ett centralt metadatalager och använder ML att deduplicera och rensa data
  • Azure Data Factory: En tjänst för orkestrering av datarörelser och omvandling av data mellan Azure-resurser, med hjälp av data observerbarhet, metadataoch maskininlärning
  • Cloudera: Datatjänster som hanterar data över flera företagsmoln, effektiviserar datareplikering och användning såvida inte – ett snabbt, enkelt och säkert verktyg för dataintegrering
  • Google Cloud Data Fusion: En avancerad produkt och grunden för Google Data Integration som innefattar dataobserverbarhet och integrationsmetadata.
  • IBM Information Server för IBM Cloud Pak för data: En server med funktioner för dataintegration, kvalitet och styrning, med ML-funktioner
  • IBM Infosphere Information Server: En hanterad tjänst på valfritt moln eller självhanterad för en kundinfrastruktur som använder ML
  • Informatik: En intelligent dataplattform som inkluderar inbyggd anslutning, intag, kvalitet, styrning, katalogisering genom företagsomfattande metadata, integritet och masterdatahantering över flera moln
  • Talent: Ett helt dataekosystem som är molnoberoende och bäddar in ML i hela sin dataväv

Andra verktyg är specialiserade på att förbereda och paketera data för leverans:

  • Fivetran: En datapipeline med låg konfiguration, ingen konfiguration och inget underhåll som hämtar data från operativa källor och levererar den till ett modernt molnlager 
  • Matillion: En dynamisk ETL-plattform som gör justeringar i realtid om dataprocesser tar för lång tid eller misslyckas
  • Alooma: Ett datapipelineverktyg från Google för enklare kontroll och synlighet av automatiserade dataprocesser
  • Sy: Ett ETL- och datalagerverktyg, ihopkopplat med Talend, som flyttar och hanterar data från flera källor

På företagsnivå kommer företag att använda minst en generisk datapipelineresurs som sträcker sig över tjänster över flera moln och en annan specialiserad för att hantera krångligheterna med databeredning. 

Slutsats

Varje modern dataarkitektur kräver ett datapipeline-nätverk för att flytta data från sitt råa tillstånd till ett användbart. Datapipelines ger flexibiliteten och hastigheten för bästa transport av data för att möta affärs- och datahanteringsbehov.

Även om dåligt utförda datapipelines leder till ökad komplexitet, kostnader och säkerhetsrisker, maximerar en bra dataarkitektur med bra dataverktyg datapipelines potential i hela organisationen.

As Chris Gladwin, medgrundare och VD på Ocient, noterar, datapipelines kommer att bli viktigare för att få in en mängd olika data väl. Framtiden för med sig förbättringar av datapipeline med mer sofistikerad dataintegration som är lättare att hantera.

Bilden används under licens från Shutterstock.com

plats_img

Senaste intelligens

plats_img