Zephyrnet-logo

Gegevensnetwerk 101

Datum:

In de complexe zakelijke omgeving van vandaag zijn datameren en datawarehouses mogelijk niet voldoende om aan de organisatorische vereisten te voldoen. Vanuit het oogpunt van wendbaarheid hebben zowel datameren als datawarehouses beperkingen als het gaat om het onderhouden en beheren van verschillende soorten data. Voer gegevensnet in.

Het idee van een datamesh werd geboren toen Zhamak Deghani, de bekende ThoughtWorks-consultant, besprak de beperkingen van "gecentraliseerde en monolithische" dataplatforms in haar paper in 2019. Ze creëerde datamesh om de beperkingen van datameren of datawarehouses te overwinnen.

DEEL ONS BIJ DE DATA GOVERNANCE & INFORMATION QUALITY CONFERENTIE

Leer van tientallen praktijkvoorbeelden, tutorials, seminars en meer - 5-9 december 2022 in Washington, DC (registreer vóór 4 november om tot $ 200 te besparen!)

Data mesh is beschreven als een gedistribueerde data-architectuur met wereldwijde interoperabiliteitsnormen. De primaire doelen van een datamesh zijn het voorzien in een gedecentraliseerde, domeingeoriënteerde, zelfbedieningsdata-infrastructuur voor het op grote schaal extraheren van waarde uit analytische en historische data. 

Wat zijn de kernprincipes van een datamesh-architectuur?

Data mesh stelt datateams in staat om een "domein-agnostisch" benadering van datagebruik door wereldwijde standaardisatie van dataregels en -regelgeving, dankzij de data mesh self-service infrastructure-as-a-platform. De logische architectuur van een zelfbedieningsplatform is georganiseerd in drie vlakken: data-infrastructuur, expertise op het gebied van productontwikkeling en monitoring van data-mesh.

In tegenstelling tot de traditionele monolithische data-infrastructuur, die de ETL op één centrale locatie afhandelt, ondersteunt een datamesh gedistribueerde, domeinspecifieke dataconsumenten en een weergave van 'data als een product', waarbij elk domein zijn eigen datapijplijn beheert.

Beïnvloed door datafabric, datamarts, microservices en domeingestuurde architecturen, vier kernprincipes: van data mesh kan worden samengevat als: 

  • Domeingericht gegevenseigendom: Het operationele en analytische data-eigendom wordt verschoven naar de domeinteams met domeinspecifieke kennis vanuit het centrale datateam.
      
  • Gegevens als product: Het domeinteam is verantwoordelijk voor het produceren van gegevens en het voldoen aan alle gegevensbehoeften van andere domeinen.
  • Selfservice dataplatform: Een toegewijd dataplatformteam zorgt ervoor dat interoperabele dataproducten worden onderhouden die door alle domeinen kunnen worden gebruikt. 
     
  • Federaal bestuur: Dit bestuursmodel wordt uitgevoerd door het governancegilde en zorgt ervoor dat alle dataproducten interoperabel zijn door wereldwijde standaardisatie van toepasselijke regels en voorschriften.

Wat zijn de componenten van een datamesh-architectuur?

Aangezien data mesh voornamelijk is ontworpen als een gedistribueerde systeemarchitectuur met onderling verbonden datahubs, heeft de architectuur vier kerncomponenten: de hubknooppunten, spaken, koppelingen en routeringsprotocollen. 

  • De hub-knooppunten beheren de routeringspaden voor de spaken. Hub-knooppunten controleren vaak de uitvoering van kwaliteits- of beveiligingsbeleid. Hub-knooppunten kunnen worden geïmplementeerd als hardware- of softwarecomponent.
  • Spaken verbinden de hubs met andere apparaten, en ze routeren en beheren het netwerkverkeer. Spaken kunnen worden geïmplementeerd als een hardware- of een softwarecomponent.
  • De links vormen de “fysieke” of “logische” verbindingen tussen de spaken. Meestal zijn de links gemaakt van koperdraden, glasvezelkabels of als een stuk software.  
  • Routeringsprotocollen regelen de regels voor gegevensuitwisseling tussen de hubs en de spokes. De routeringsprotocollen zorgen ervoor dat het netwerkverkeer soepel tussen de netwerkapparaten verloopt.

Welke voordelen biedt een datamesh-architectuur?

Data mesh-architectuur biedt drie belangrijke voordelen: eenvoud, schaal en robuuste externe verbindingen. Alle drie de voordelen zijn van cruciaal belang voor IT-organisaties van elke omvang die kwaliteitsdiensten willen leveren aan klanten. 

Volgens Thoughtworks is een data mesh bedoeld om de beperkingen van de traditionele gecentraliseerde data lake- of datawarehouse-architecturen te overwinnen. Data mesh bereikt dit ambitieuze doel door te steunen op de huidige gedistribueerde architecturen en selfservice data-infrastructuur. 

Door de toenemende populariteit van de data mesh komen de onderneming en IT steeds dichter bij elkaar, of het nu gaat om het bouwen van geïntegreerde domeinteams of om teams op de engineeringafdeling die gegevens leveren vanuit een domain-as-a-service voor de onderneming, zoals het ondersteunen van leidinggevenden of management op C-niveau. 

Welke rollen spelen domeinen in een datamesh?

In een datamesh zijn de domeinen in a klantreis hun gegevens publiceren als een gegevensproduct waartoe anderen toegang hebben. Een datadomein kan een of meer dataproducten aanbieden en kan ondersteunende data bevatten die worden gebruikt om de dataproducten te bouwen, die niet toegankelijk zijn in een mesh. Deze domeinen moeten verantwoordelijk zijn voor de opslag, het beheer en het onderhoud van gegevens. Het principe van domeineigendom zegt dat elk team of elke eenheid die een domein heeft, zoals contentdistributie, ook eigenaar moet zijn van de gegevens die erin zijn gemaakt. 

Vanuit architectonisch oogpunt ondersteunt de data mesh de autonomie van de domeinteams voor de inzet van operationele of analytische data. Terwijl de datawarehouse of het datameer teams hebben "gecentraliseerd data-eigendom", de data mesh geeft individuele domeinteams rechten op het gebied van data-eigendom. Op deze manier vermindert het gedecentraliseerde eigendom en de architectuur van gegevens de overbelasting van bronnen, door de verantwoordelijkheden te spreiden over verschillende domeinen en de bijbehorende gegevens. 

Om als domeingeoriënteerde architectuur haalbaar te zijn, heeft het datamesh een governancemodel nodig dat decentralisatie, domeinoriëntatie en interoperabiliteit bevordert. Met data mesh zijn de nieuwe klantgerichte domeinteams gericht op het voldoen aan de gegevensbehoeften voor een bepaald bedrijfsdomein, waardoor ze diepere domeinkennis kunnen ontwikkelen en voortdurend betere analyseresultaten kunnen ontwikkelen. 

Hoe ondersteunt het Federated Governance Model Data Mesh?

Het concept van federated governance in de data mesh zorgt ervoor dat teams altijd de beschikbare data uit andere domeinen kunnen benutten. Organisaties die data mesh implementeren, moeten duidelijk aangeven welke domeinteams eigenaar zijn van welke datasets, en alle teams nemen de gezamenlijke verantwoordelijkheid om ervoor te zorgen dat de gegevens die ze op de mesh hebben te allen tijde van hoge kwaliteit zijn. 

Het federatieve bestuursmodel in data mesh is ontworpen om de architectuur van gedistribueerde systemen te ondersteunen. Simpel gezegd, het is een reeks onafhankelijke dataproducten, met onafhankelijke levenscycli, gebouwd en geïmplementeerd door onafhankelijke teams. Dataproducten zijn knooppunten in een datamesh, die de drie structurele componenten omvat die nodig zijn om hun functies uit te voeren, en die toegang bieden tot de analytische data van het domein als producten. De "functionele data-eenheid" is in dit geval niet alleen een fase in een pijplijn, maar eerder het hele domein, dat die gegevens verzamelt, verwerkt, verwerkt en bedient. Dit principe zorgt voor een netwerk van onderling verbonden datahubs over het hele domein. 

Waarin verschilt Data Mesh van Data Fabric?

Think James Serra, zowel datafabric als data mesh bieden architecturen om toegang te krijgen tot gegevens via een verscheidenheid aan technologieën en platforms, maar terwijl de datafabric is gericht op technologieën, is data mesh gericht op veranderende gegevensbronnen en veranderende gegevensbeheeromgevingen. 

In het geval van een gegevensstof, worden gegevens beheerd door een uniform gegevensbeheerpunt, omdat de gegevenstoegang gecentraliseerd is. Aan de andere kant, in het geval van een datamesh, helpt de gedistribueerde infrastructuur om processen te versnellen, terwijl het zorgt voor rijkere datasets omdat het dichter bij domeinexperts wordt gehouden. Gedistribueerde architecturen verminderen de hoeveelheid rekenkracht en interventie die de gegevens vertraagt. 

Conclusie

Aangezien de netwerkvoetafdrukken in de data-ecosystemen van ondernemingen blijven groeien, is er een dringende behoefte om bestaande Data Management-architecturen te upgraden naar meer schaalbare en veerkrachtige omgevingen, die ook eenvoud beloven. De data mesh-architectuur lijkt een perfect antwoord, met alle vereiste voordelen: de starheid van een traditioneel data-ecosysteem uitdagen en overwinnen.

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img