Zephyrnet-logo

Datapijplijnen: een overzicht

Datum:

Net zoals leveranciers vertrouwen op Amerikaanse post of UPS om hun goederen bij klanten te krijgen, rekenen werknemers op datapijplijnen om de informatie te leveren die ze nodig hebben om zakelijke inzichten te verwerven en beslissingen te nemen. Dit netwerk van gegevenskanalen, dat op de achtergrond werkt, verdeelt verwerkte gegevens over computersystemen, een essentieel raamwerk en functie voor iedereen Gegevensgestuurde bedrijf.

De waarde van het verbinden van datasystemen met pijplijnen blijft groeien, omdat bedrijven sneller veel streaming data moeten consumeren, die in verschillende formaten worden aangeboden. Managers die gegevenspijplijnen op een hoog niveau begrijpen, kunnen ruwe gegevens dus beter verplaatsen naar de informatie die op dashboards of rapporten te zien is, op de meest economische manier. 

Wat zijn gegevenspijplijnen?

Gegevenspijplijnen beschrijven gegevensverwerkingselementen in serie, waarbij de gegevensuitvoer van het ene kanaal fungeert als invoer voor het volgende. Deze leidingen beginnen bij de bron, waar systemen het opnemen door het te verplaatsen of te repliceren en naar een nieuwe bestemming te verplaatsen. 

Computerprogramma's creëren, wijzigen, transformeren of verpakken hun invoer in een meer verfijnd dataproduct op die nieuwe plek. Dan kan een ander computersysteem de verwerkte data-outputs, in zijn datapijplijn, als inputs nemen. 

De gegevens gaan verder langs elke verbinding en door verschillende opschoningsprocessen en pijplijnen totdat ze een verbruikbare toestand bereiken. Vervolgens gebruiken de werknemers het tijdens het werk, of worden de gegevens opgeslagen in een repository, zoals een datawarehouse.

Naast het transporteren van gegevens, reinigen, converteren en transformeren sommige leidingen de gegevens terwijl deze er doorheen gaan, vergelijkbaar met hoe het spijsverteringskanaal van een persoon voedsel afbreekt. Andere gegevenskanalen verzamelen en analyseren gegevens over het organisatiebrede pijplijnnetwerk en bieden end-to-end monitoring van de gezondheid ervan, ook wel bekend als waarneembaarheid van gegevens.

Waarom gebruiken bedrijven datapijplijnen?

Bedrijven vinden goede datapijplijnen schaalbaar, flexibel, onderhoudbaar en snel. Geautomatiseerde datapijplijnen, gemaakt en beheerd door algoritmen, kunnen verschijnen of intrekken wanneer dat nodig is. Ook kunnen gegevenspijplijnen gegevens omleiden naar andere conduits, waardoor een gegevensopstopping wordt vermeden en gegevens snel worden getransporteerd.

Datapijplijnen dragen bij aan verschillende kritische Data Management behoeften in de hele onderneming. Voorbeelden zijn:

  • Gegevens integratie: Connectoren die data verpakken en transporteren van het ene systeem naar het andere en event-based en batchverwerking van datastromen omvatten
  • Datakwaliteit/Dataoverheid: Conduits die gegevenskwaliteitsregels definiëren en afdwingen volgens het bedrijfsbeleid en branchevoorschriften voor de gegevensuitvoer
  • Datacatalogisering/Metadatabeheer: Pijplijnen die metadata voor alle soorten databases verbinden en scannen en bedrijfsgegevens context geven 
  • Data Privacy: Kanalen dat gevoelige gegevens detecteren en beschermen tegen inbreuken

Drie uitdagingen voor organisaties

Organisaties die gebruikmaken van datapijplijnen staan ​​voor ten minste drie uitdagingen: complexiteit, hogere kosten en beveiliging.

Ingewikkeldheid

Ingenieurs moeten datapijplijnen koppelen of wijzigen naarmate de vereisten voor bedrijfsgegevens veranderen, waardoor de complexiteit van het gebruik en onderhoud van de kanalen toeneemt. Bovendien moeten werknemers gegevens over onderling verbonden hybride cloudomgevingen verplaatsen, inclusief on-premises openbaar beschikbare omgevingen, zoals Microsoft Azure. 

Veel verschillende hanteren cloud computing locaties voegt frustraties toe met datapijplijnen vanwege uitdagingen bij het schalen van het datapijplijnnetwerk. Wanneer ingenieurs er niet in slagen om op competente wijze te ontwerpen, stromen de gegevens door een organisatie, vertraagt ​​de beweging van gegevens, of krijgen werknemers niet de gegevens die ze nodig hebben en moeten ze extra doen data-opschoning.

Gur Steif, president van digitale bedrijfsautomatisering bij BMC Software, vertelt hoe corporaties worstelen om een ​​ingewikkeld pijplijnsysteem in hun kritieke toepassingen in te bedden. Bijgevolg zullen ondernemingen moeten investeren in platforms voor het orkestreren van dataworkflows die de datastroom in stand houden en geavanceerd vereisen DataOps kennis.

Verhoogde kosten

Naarmate nieuwere datatechnologieën opkomen, krijgen bedrijven te maken verhoogde kosten om elk van hun datapijplijnen te moderniseren om zich aan te passen. Daarnaast moeten bedrijven meer uitgeven aan leidingonderhoud en het bevorderen van technische kennis.

Een andere bron van kosten komt voort uit veranderingen gemaakt door ingenieurs stroomopwaarts, dichter bij de bron. Soms kunnen deze ontwikkelaars de vertakkingen van hun code niet direct zien, waardoor ten minste één gegevensproces wordt onderbroken terwijl de gegevens door de pijplijn gaan.

Gegevensveiligheid

Ingenieurs moeten zorgen voor gegevensbeveiliging voor naleving, aangezien gegevens via verschillende gegevenskanalen naar doelgroepen stromen. Bedrijfsaccountants hebben bijvoorbeeld mogelijk gevoelige creditcardgegevens nodig die via de pijplijn worden verzonden en die niet naar het personeel van de klantenservice mogen gaan. 

De beveiligingsrisico's nemen dus toe als ingenieurs geen manier hebben om de gegevens te bekijken terwijl deze door de pijplijn stromen. Dat constateert Ponemon Research 63% van de beveiligingsanalisten noemt het gebrek aan inzicht in het netwerk en de infrastructuur een stressfactor.

Best practices voor het gebruik van gegevenspijplijnen

Het gebruik van datapijplijnen vereist een delicaat evenwicht om de noodzakelijke gegevens zo snel mogelijk toegankelijk te maken voor gebruikers tegen de laagste kosten voor creatie en onderhoud. Zeker, bedrijven moeten het beste kiezen Gegevensarchitectuur met veilige, flexibele en operationeel robuuste datapijplijnen.

Daarnaast moeten bedrijven rekening houden met het volgende:

  • AI- en machine learning-technologieën (ML): Organisaties zullen vertrouwen op ML om gegevensstroompatronen te identificeren en de gegevensstroom naar alle delen van de organisatie optimaal te optimaliseren. Bovendien zullen goede ML-services de gegevensstroom efficiënter maken door zelfintegratie, genezing en afstemming van gegevenspijplijnen mogelijk te maken. Tegen 2025 zullen AI-modellen tot wel 60% van bestaande, inclusief die met datapijplijnen die zijn gebouwd op traditionele data.
  • Waarneembaarheid van gegevens: Waarneembaarheid van gegevens biedt ingenieurs een holistisch overzicht van het gehele datapijplijnnetwerk, inclusief de orkestratie. Met behulp van gegevensobservatie weten ingenieurs hoe de gegevenspijplijnen functioneren en wat ze moeten veranderen, repareren of snoeien.
  • Metadatabeheer: Voor een goede waarneembaarheid van gegevens moet optimaal gebruik worden gemaakt van metadata, ook wel gegevens genoemd die gegevens beschrijven. Bijgevolg zullen bedrijven een metadata management structuur om bestaande met opkomende actieve metadata te combineren om de gewenste automatisering, inzicht en betrokkenheid in datapijplijnen te krijgen.

Tools die helpen bij het beheren van datapijplijnen

Bedrijven zijn afhankelijk van datapijplijntools om dataverbindingen te helpen bouwen, implementeren en onderhouden. Deze bronnen verplaatsen gegevens van meerdere bronnen naar bestemmingen efficiënter, ondersteuning van end-to-end processen.

Hoewel sommige ondernemingen van plan zijn gespecialiseerde interne tools te ontwikkelen en te onderhouden, kunnen ze de middelen van de organisatie uitputten om deze te beheren, vooral wanneer gegevens in multi-cloudomgevingen circuleren. Als gevolg hiervan zullen sommige bedrijven zich wenden tot externe leveranciers om deze kosten te besparen.

Datapijplijntools van derden zijn er in twee smaken. Sommige generieke verzamelen, verwerken en leveren gegevens over verschillende cloudservices. Voorbeelden zijn onder meer:

  • AWS-lijm: Een serverloos ETL-platform (low code, extract, transform, load) met een centrale opslagplaats voor metadata en gebruikt ML om gegevens te ontdubbelen en op te schonen
  • Azure-gegevensfabriek: Een service voor het orkestreren van gegevensverplaatsing en het transformeren van gegevens tussen Azure-bronnen, met behulp van gegevenswaarneming, metadata en machine learning
  • Cloudera: Gegevensservices die gegevens over verschillende bedrijfsclouds verwerken, gegevensreplicatie en -gebruik stroomlijnen NiFi – een snelle, gemakkelijke en veilige tool voor gegevensintegratie
  • Google Cloud-gegevensfusie: Een high-end product en fundament van Google Data Integration dat omvat datawaarneembaarheid en integratiemetadata.
  • IBM Information Server voor IBM Cloud Pak for Data: Een server met mogelijkheden voor gegevensintegratie, kwaliteit en beheer, gebruikmakend van ML-mogelijkheden
  • IBM Infosphere-informatieserver: Een beheerde service in elke cloud of in eigen beheer voor een klantinfrastructuur die gebruikmaakt van ML
  • Informatica: Een intelligent dataplatform dat native connectiviteit, opname, kwaliteit, beheer, catalogisering via ondernemingsbrede metadata, privacy en beheer van masterdata in meerdere clouds omvat
  • Talen: Een volledig data-ecosysteem dat cloudonafhankelijk is en ML in de hele datastructuur insluit

Andere tools zijn gespecialiseerd in het voorbereiden en verpakken van gegevens voor levering:

  • vijftran: Een gegevenspijplijn met weinig configuratie, geen configuratie en onderhoud die gegevens uit operationele bronnen haalt en levert aan een modern cloudmagazijn 
  • Matillion: Een dynamisch ETL-platform dat real-time bijstuurt als dataprocessen te lang duren of mislukken
  • Alooma: Een datapijplijntool van Google voor eenvoudigere controle en zichtbaarheid van geautomatiseerde gegevensprocessen
  • Steek: Een ETL- en datawarehouse-tool, gecombineerd met Talend, die gegevens uit meerdere bronnen verplaatst en beheert

Op bedrijfsniveau zullen bedrijven ten minste één generieke datapijplijnbron gebruiken die services over meerdere clouds omvat, en een andere gespecialiseerde om de fijne kneepjes van gegevensvoorbereiding aan te kunnen. 

Conclusie

Elke moderne data-architectuur vereist een datapijplijnnetwerk om gegevens van de onbewerkte staat naar een bruikbare staat te verplaatsen. Datapijplijnen bieden de flexibiliteit en snelheid om gegevens zo goed mogelijk te transporteren om te voldoen aan zakelijke en gegevensbeheerbehoeften.

Terwijl slecht uitgevoerde datapijplijnen leiden tot meer complexiteit, kosten en beveiligingsrisico's, maximaliseert het implementeren van een goede data-architectuur met goede datatools het potentieel van de datapijplijnen in de hele organisatie.

As Chris Gladwin, mede-oprichter en CEO bij Ocient, notities, datapijplijnen zullen belangrijker worden om een ​​grote verscheidenheid aan data goed te verwerken. De toekomst brengt verbeteringen aan de datapijplijn met meer geavanceerde data-integratie die eenvoudiger te beheren is.

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img