Zephyrnet-logo

Lagen van de dataplatformarchitectuur

Datum:


Overzicht

In dit artikel zal ik je door de lagen van de dataplatformarchitectuur leiden. Laten we eerst eens begrijpen wat een Laag, een laag vertegenwoordigt een bruikbaar onderdeel dat een precieze taak of reeks taken in het dataplatform uitvoert. De verschillende lagen van de gegevensplatformarchitectuur die we in dit artikel gaan bespreken, zijn de gegevensopnamelaag, gegevensopslaglaag, gegevensverwerkingslaag en analyse, gebruikersinterfacelaag en gegevenspijplijnlaag. Als Data Engineering nieuw voor u is, volg dan deze top 9 vaardigheden die nodig zijn om een ​​data engineer te zijn.

Bron: auteur

Inhoudsopgave

  1. Gegevensverzamelingslaag of gegevensopnamelaag
  2. Gegevensopslaglaag of integratielaag
  3. Gegevensverwerkingslaag
  4. Analyse en gebruikersinterfacelaag
  5. Gegevenspijplijnlaag

Gegevensverzamelingslaag

Bron: auteur

Dit is de eerste laag van de dataplatformarchitectuur. De laag Gegevensverzameling, zoals de naam al doet vermoeden, is verantwoordelijk voor het verbinden met de bronsystemen en het periodiek binnenbrengen van gegevens in het gegevensplatform. Deze laag voert de volgende taken uit:

  1. Deze laag is verantwoordelijk voor de aansluiting op de databronnen.
  2. Deze laag is verantwoordelijk voor het overbrengen van gegevens van gegevensbronnen naar het gegevensplatform in streamingmodus of batchmodus of beide.
  3. Bovendien is deze laag verantwoordelijk voor het bijhouden van de informatie over de verzamelde gegevens in de metadatarepository. Hoeveel gegevens worden bijvoorbeeld in het dataplatform en andere beschrijvende informatie opgeslokt?

Er zijn verschillende tools die op de markt beschikbaar zijn, maar enkele van de populaire tools zijn Google Cloud Data Flow, IBM Streams, Amazon Kinesis en Apache Kafka zijn enkele van de tools die worden gebruikt voor gegevensopname die zowel batch- als streaming-modi ondersteunen.

Bron: auteur

Zodra de gegevens zijn opgeslokt, moeten ze worden opgeslagen en geïntegreerd in het gegevensplatform, zoals we voedsel in de maag bewaren. Voor het opslaan en integreren van de gegevens gaan we naar de tweede laag van het gegevensplatform, de gegevensopslaglaag of gegevensintegratielaag.

Gegevensopslag en gegevensintegratielaag

Bron: auteur

Dit is de tweede laag van de dataplatformarchitectuur. De gegevensverzamelingslaag is, zoals de naam al doet vermoeden, verantwoordelijk voor het opslaan van gegevens voor verwerking en langdurig gebruik. Bovendien is deze laag ook verantwoordelijk voor het beschikbaar stellen van gegevens voor verwerking in zowel streaming- als batchmodus. Aangezien deze laag verantwoordelijk is voor het beschikbaar stellen van gegevens voor verwerking, moet deze betrouwbaar, schaalbaar, performant en kostenefficiënt zijn. IBM DB2, IBM DB2, Microsoft SQL Server, MySQL, Oracle Database en PostgreSQL zijn enkele van de populaire relationele databases. Maar tegenwoordig hebben cloudgebaseerde relationele databases de afgelopen jaren aan populariteit gewonnen, sommige cloudgebaseerde relationele databases zijn IBM DB2, Google Cloud SQL en SQL Azure. In de NoSQL of niet-relationele databasesystemen in de cloud hebben we IBM Cloudant, Redis, MongoDB, Cassandra en Neo4J. Tools voor integratie zijn onder meer IBM's cloud Pak for Data, IBM's cloud Pak for Integration en Open Studio. Zodra de gegevens zijn opgenomen, opgeslagen en geïntegreerd, moeten ze worden verwerkt. Dus hiermee gaan we verder naar de gegevensverwerkingslaag

Gegevensverwerkingslaag

Bron: auteur

Dit is de derde laag van de dataplatformarchitectuur. Zoals de naam al doet vermoeden, is deze laag verantwoordelijk voor een verwerkingstaak. De verwerking omvat gegevensvalidaties, transformaties en het toepassen van bedrijfslogica op de gegevens. De verwerkingslaag moet enkele taken kunnen uitvoeren, waaronder:

  1. Lees gegevens in batch- of streamingmodus uit opslag en pas transformaties toe.
  2. Ondersteuning van populaire zoekhulpmiddelen en programmeertalen.
  3. Schaal om te voldoen aan de verwerkingseisen van een groeiende dataset.
  4. Bied analisten en datawetenschappers een manier om met data in het dataplatform te werken.

De transformatietaak die meestal in deze laag voorkomt, omvat:

  1. Structureren: Dit zijn de acties die de structuur van de gegevens veranderen. Deze wijziging kan eenvoudig of complex van aard zijn. De eenvoudige kan ook zijn als het veranderen van de rangschikking van velden binnen de record of dataset of complex als het combineren van complexe structuren van velden met behulp van joins en unions.
  2. Normalisatie: Dit deel richt zich op het verminderen van redundantie en inconsistentie. Het richt zich ook op het opschonen van de database van ongebruikte gegevens.
  3. Denormalisatie: Denormalisatie is de taak om gegevens uit meerdere tabellen te combineren in een enkele tabel, zodat deze efficiënter kan worden opgevraagd voor rapportage- en analysedoeleinden.
  4. Gegevens opschonen: Data Cleaning, waarmee onregelmatigheden in gegevens worden verholpen om geloofwaardige gegevens te leveren voor downstream-toepassingen en -gebruiken.

Er zijn talloze tools op de markt beschikbaar voor het uitvoeren van deze bewerkingen op de gegevens, zoals spreadsheets, OpenRefine, Google DataPrep, Watson Studio Refinery en Trifacta Wrangler. Python en R bieden ook verschillende bibliotheken en pakketten die expliciet zijn gemaakt voor het verwerken van gegevens. Het is heel belangrijk om te weten dat opslag en verwerking niet altijd in aparte lagen plaatsvinden. In relationele databases vinden opslag en verwerking bijvoorbeeld beide plaats in dezelfde laag, terwijl in Big data-systemen gegevens eerst worden opgeslagen in het Hadoop File Distributed-systeem en vervolgens worden verwerkt in de gegevensverwerkingsengine zoals Spark.

Analyse en gebruikersinterfacelaag

Bron: auteur

Dit is de vierde laag van de dataplatformarchitectuur. Deze laag is verantwoordelijk voor het leveren van de procesgegevens aan de eindgebruikers, waaronder business intelligence-analisten en zakelijke belanghebbenden die deze gegevens consumeren met behulp van interactieve dashboards en rapporten, bovendien vallen datawetenschappers en data-analisten onder deze eindgebruikerscategorie die deze gegevens verder verwerken voor de specifieke use case. Deze laag moet ondersteuning bieden voor querytools zoals SQL-tools en No-SQL-tools en programmeertalen zoals Python, R en Java en bovendien moeten deze lagen API's ondersteunen die kunnen worden gebruikt om rapporten over gegevens uit te voeren voor zowel online als offline verwerking.

Gegevenspijplijnlaag

Bron: auteur

Dit is de laatste laag van deze architectuur, deze laag is verantwoordelijk voor het implementeren en onderhouden van een continue datastroom door deze datapijplijn. Het is de laag die tools kan extraheren, transformeren en laden. Er zijn een aantal datapijplijnoplossingen beschikbaar, waarvan Apache Airflow en DataFlow de meest populaire zijn.

Eindnotities

In dit artikel heb je geleerd over de lagen van een dataplatformarchitectuur. Dit is een vereenvoudigde weergave van een complexe architectuur die een breed spectrum aan taken ondersteunt.

Bron: https://www.analyticsvidhya.com/blog/2022/01/layers-of-the-data-platform-architecture/

spot_img

Laatste intelligentie

spot_img