Zephyrnet-logo

Data Mesh-principes begrijpen - DATAVERSITEIT

Datum:

data mesh-principesdata mesh-principes

ThoughtWorks-consultant Zhamak Dehghani definieert datamesh als een "gedecentraliseerde sociotechnische benadering voor het delen, openen en beheren van analytische gegevens in complexe en grootschalige omgevingen - binnen of tussen organisaties." Dit soort Gegevensarchitectuur blijft interesse wekken bij bedrijven, en dataprofessionals zullen vertrouwd moeten raken met datamesh-architecturen, zoals die met gegevensmeren or magazijnen. Daartoe hielp Dehghani deelnemers aan DATAVERSITY's Data Architecture Online (DAO) om de principes en componenten van datamesh beter te begrijpen.

Nu al, 41.5% van de bedrijven is van plan om in 2023 te investeren in datamesh, en dit percentage zal de komende jaren waarschijnlijk groeien. Datamesh belooft voordelen voor datagestuurde bedrijven door de samenwerking en flexibiliteit tussen teams te vergroten en tegelijkertijd op te schalen naar geleverde producten en diensten. 

Bijgevolg blijft datamesh aantrekkelijk voor ondernemingen of afdelingen met ingebedde kruisbestuivingsteams en geavanceerde technologie. Als een dataprofessional nog geen datamesh-configuratie is tegengekomen, zal hij dit waarschijnlijk doen wanneer de zakelijke en technische functies van een organisatie meer geïntegreerd zijn. 

Vóór Data Mesh

Dehghani legde uit dat traditionele data-architectuur zich richt op het verplaatsen van data van en naar datameren of magazijnen naar de bedrijfsvoering, naast de technologie om dit te doen. Deze technologie heeft de vorm van gegevenspijplijnen, een reeks verbonden processen die gegevens van het ene systeem naar het andere transporteren.

Om deze gecentraliseerde architectuur te beheren, heeft een organisatie veel ingenieurs nodig die samenwerken om een ​​complex web van datapijplijnen te beheren. Bovendien moeten ingenieurs langs deze connectoren extraheren, transformeren en laden (ETL) om de gegevens bruikbaar te maken voor bedrijfsactiviteiten. Zie onderstaande figuur:

Krediet van het beeld: Zhamak Deghani

Bijgevolg: "Gegevensconsumenten ervaren een lange doorlooptijd van gegevenscreatie tot de waarde ervan als een asset", aldus Dehghani. Bovendien verliezen gegevensconsumenten een deel van de context van die gegevens bij ontvangst en verliezen ze het vertrouwen in het nut ervan.

Na Data Mesh

Volgens Dehghani profiteert de datamesh-architectuur van een datagestuurde strategie waarbij het bedrijf gemengde technische, zakelijke en ontwikkelingsteams heeft. Deze multifunctionele groepen organiseren zich in verschillende entiteiten die bedrijfsresultaten vertegenwoordigen die met elkaar samenwerken. 

Zie het onderstaande diagram van een voorbeeldbedrijf, Daff Inc., dat artiesten en publiek met elkaar verbindt:

Krediet van het beeld: Zhamak Deghani

Elk domein richt zich op enkele data-oplossingen die beschikbaar zijn voor anderen via een selfservice-infrastructuur. Een cross-operationeel DataOps-ontwikkelingsteam ondersteunt de verplaatsing van gegevens over alle domeinen door middel van automatisering, waardoor de rest van de organisatie en de domeinleden in staat worden gesteld deze gegevens te gebruiken.

Ze zegt:

“We zien een peer-to-peer-benadering voor diepgaande analytische uitwisseling die uit- en terugschaalt als dat nodig is. Iedereen in de organisatie is verantwoordelijk voor zijn gegevens. Naarmate de organisatie groeit met nieuwe use cases en nieuwe touchpoints integreert, wordt er een nieuw domein toegevoegd met een nieuw team dat verantwoordelijk is voor die data.”

Wat is er veranderd tussen traditionele en datamesh-architecturen?

Naarmate een bedrijf meer samenwerkt, neemt de complexiteit toe met een groter aantal use cases en gegevensbronnen. Tegelijkertijd boekt het bedrijf vooruitgang bij het aanpassen en waarde halen uit zijn data. 

Na verloop van tijd ontgroeit de organisatie de behoefte aan centralisatie en bereikt ze een keerpunt – waar vooruitgang in de waarde van data plateaus bereikt. 

Zie onderstaande grafiek:

Krediet van het beeld: Zhamak Deghani

Dehghani merkt op:

“Op het keerpunt, waar een bedrijf overgaat op datamesh, accepteert het de complexiteit en verschillende bewegende delen. Het erkent dat teams verschillende cadensen, structuren, prikkels en resultaten hebben. De data-architectuur moet zich richten op het beheer van gedeelde data voor Machine Learning ML, AI en analytische use-cases. Aangezien gedecentraliseerde en transactionele gegevens het afgelopen decennium al zijn gebeurd met microservices en bewerkingen via API's, breidt datamesh deze transformaties voor het delen van gegevens op natuurlijke wijze uit door de organisatie. 

Data Mesh Principes en Architectuur

Wanneer een organisatie een datamesh-architectuur omarmt, verschuift het haar datagebruik en resultaten van bureaucratie naar zakelijke activiteiten. Volgens Dehghani verklaren vier datamesh-principes deze evolutie: domeingestuurd data-eigendom, data als een product, selfservice-infrastructuur en gefedereerd computationeel bestuur.  

Elk heeft een afhankelijkheid van de ander, zoals de onderstaande figuur laat zien:

Krediet van het beeld: Zhamak Deghani

Dehghani ging dieper in op elk concept en toonde hun onderlinge afhankelijkheid terwijl ze verder ging met haar lezing. 

Domeingestuurd data-eigendom 

Beschouw domeingestuurd data-eigendom als een voortzetting van het geven van controle aan het bedrijf over zijn data. Dehghani zei,

“Domeingestuurd eigenaarschap resulteert in het ontdekken van de bestaande bedrijfsgebieden en teams. Je vraagt ​​hoe onze organisatie is ingericht en hoe we daar data-eigenaarschap op kunnen afstemmen. Vervolgens leer je hoe je analytische gegevens kunt koppelen aan de domeinen die het best gepositioneerd zijn om deze te leveren en aan de vereiste API's. Ten slotte definiëren domeinen serviceniveaugaranties voor de API's die consumenten, zoals datawetenschappers en analisten, nodig hebben."

Dehghani legde uit dat een domein zijn gegevens moet externaliseren met de andere domeinen via een gedeelde interface om organisatiegegevens te gebruiken. Elk domein wordt een dataproducteigenaar die zijn KPI's, feedback en doelen tijdens de ontwikkeling meet.

Domeinen ontvangen feedback van de andere teams die hun producten gebruiken, waardoor de betrokkenheid toeneemt, het delen van gegevens wordt beloond en gegevenssilo's worden voorkomen. Bovendien belonen organisaties deze domeinen op basis van hun productsucces, waardoor een positieve feedbacklus ontstaat waar domeinen selfservice willen inschakelen, waardoor andere domeinen in staat worden gesteld om goede dataservices te bieden.

Gegevens als product

Dehghani legde data uit als een product als een autonome service voor verschillende gebruikers, toegankelijk via voorkeurstools. Als zodanig richt data als product zich op de semantiek van de data in plaats van op de syntaxis.

Als een interoperabele entiteit organiseert het gegevensproduct zich rond een domein en heeft het metagegevens die bij de gegevens worden geleverd om betrouwbaar te zijn. "Door dezelfde semantische gegevens in verschillende toegangsmodi te behouden, kunnen verschillende gegevensgebruikers gegevens gebruiken met de tools die ze willen", aldus Dehghani.

Vergelijk die realiteit met een gecentraliseerde architectuur waar gegevens via een pijplijn van de ene technologiestapel naar de andere gaan. In dat geval vereist het gebruik van een toepassing dat de syntaxis overeenkomt. Dus als één service bijvoorbeeld parketverwerking doet, moeten andere teams parket gebruiken om er toegang toe te krijgen.

Het data-as-a-product-principe belichaamt de "kleinste eenheid van architectuur die alle structurele elementen omvat die nodig zijn om die gegevens te delen", merkte Dehghani op. De code wordt geleverd met de gegevens als een logische eenheid, een microservice en een architectuurkwantum. Deze flexibiliteit verlaagt de eigendomskosten.

Gefedereerd computerbeheer

Domeingericht eigendom en data als product leiden tot gefedereerde berekeningen Gegevensbeheer, de geformaliseerde praktijken tussen domeinen die de waarde van gegevens vergroten. Elk domein is verantwoordelijk voor het hebben van een veilig en betrouwbaar product.

Bijgevolg hebben domeinen een sterke motivatie om met anderen samen te werken om "overkoepelende problemen van governance rond beschikbaarheid van gegevens, schaalbaarheid, toegankelijkheid, enz. Te achterhalen en hoe deze te handhaven", zei Dehghani.

Aangezien data als product de eigendomskosten van het domein verlaagt, wordt het geïnvesteerd in productintegratie met de andere groepen. Na overeenstemming over beleid rond consistentie en betrouwbaarheid voor cross-functionaliteit en gegevensdistributie, behoudt elk domein de macht om deze te implementeren.

De verantwoordelijkheid van elk team voor zijn producten en andere domeinen motiveert het om Data Governance-beleid af te dwingen om zijn serviceovereenkomsten met anderen na te komen. Met deze standaardisatie worden Data Governance-beslissingen ingebed als rekenbeleid en geautomatiseerd via de selfservice-infrastructuur.

Selfservice-infrastructuur als platform

De selfservice-infrastructuur als platform ondersteunt de drie bovenstaande datamesh-principes: domeingestuurd data-eigendom, data als een product en gefedereerd computationeel bestuur. Beschouw deze interface als een besturingssysteem waar consumenten toegang hebben tot de API's van elk domein. De infrastructuur "codificeert en automatiseert governance-kwesties" in alle domeinen.

Volgens Dehghani vormt zo'n systeem een ​​meervlaks dataplatform, een verzameling gerelateerde cross-functionele mogelijkheden, waaronder databeleidsengines, opslag en computing. Dehghani beschouwt de selfservice-infrastructuur als een platform dat autonomie voor meerdere domeinen mogelijk maakt en wordt ondersteund door DataOps.

Met zo'n data-architectuur nemen de kosten van elk domein voor het onderhouden en bezitten van data af vanwege de gedeelde data-interoperabiliteit. Tegelijkertijd maakt het platformteam polyglot-platformondersteuning mogelijk, zodat elk domein de mogelijkheid heeft om zijn unieke benadering toe te passen om te experimenteren en dataservices te bouwen.

Conclusie: uitbreiding van een samenwerkingscultuur

Datamesh speelt in op de bestaande samenwerkingscultuur van een organisatie die datagedreven is en een volwassen digitaal bedrijf is. Die organisatie heeft al "cross-functionele ontwikkelteams en DataOps-praktijken, de sterk geautomatiseerde benaderingen van data", aldus Dehghani.

De technische en operationele complexiteit en knelpunten zorgen er echter voor dat een data-architectuur moet evolueren naar een datamesh zodra een organisatie een buigpunt en datawaardeplateaus bereikt. De vier kernprincipes van datamesh, zoals hierboven beschreven, verenigen dataservices over domeinen met behoud van de autonomie en unieke mogelijkheden van elk.

Wilt u meer weten over de aankomende evenementen van DATAVERSITY? Bekijk onze huidige line-up van online en persoonlijke conferenties hier.

Hier is de video van de Gegevensarchitectuur online presentatie:

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?