Zephyrnet-logo

Datawarehouses, datamarts en datameren

Datum:


Introductie

Alle dataminingrepositories hebben een soortgelijk doel: gegevens onboarden voor rapportagedoeleinden, analysedoeleinden en het leveren van inzichten. Per definitie verschillen de soorten gegevens die worden opgeslagen en hoe deze toegankelijk kunnen zijn voor gebruikers. In dit artikel worden enkele functies en toepassingen van datawarehouses, datamarts en datameren besproken.

Wat is een datawarehouse?

Een Datawarehouse werkt als een centrale opslagplaats die informatie uit verschillende bronnen samenvoegt en consolideert via het extractie-, transformatie- en laadproces, ook wel bekend als het ETL-proces, tot een uitgebreide database die wordt gebruikt voor analytische en zakelijke technieken. Op een zeer hoog niveau haalt het ETL-proces de gegevens uit meerdere bronnen, transformeert het in een opgeschoond formaat dat kan worden gebruikt voor bedrijfsprocessen en laadt die gegevens uiteindelijk in de gegevensopslag. Een datawarehouse slaat actuele data en de historische informatie die is opgeschoond, conform gecategoriseerd op. Wanneer gegevens in het datawarehouse worden geladen, worden ze gemodelleerd en gestructureerd, klaar voor een specifiek doel. Bovendien werd traditioneel een datawarehouse gebruikt voor het opslaan van gegevens uit transactiedatabases zoals CRM-, ERP-, HR- en Finance-applicaties. Maar met de vooruitgang in technologie zoals NoSQL-technologieën en nieuwe gegevensbronnen, worden niet-relationele databases ook gebruikt voor datawarehousing. Een datawarehouse heeft doorgaans een 3-tier architectuur.

datawarehouse

De onderste laag van de architectuur omvat de databaseservers, die relationeel of niet-relationeel of misschien beide kunnen zijn, die gegevens uit meerdere bronnen extraheren en samenvoegen tot één.

De Tweede rang van deze architectuur omvat: OLAP-server, een softwarecategorie waarmee gebruikers gegevens/informatie van meerdere databaseservers kunnen analyseren. De hoogste niveau van deze architectuur is de Client Front-end laag. Deze laag bevat alle applicaties en tools die worden gebruikt voor rapportage, queryanalyse en analyse van gegevens. Als reactie op de snelle groei en de geavanceerde analytische tools van vandaag, gaan datawarehouses die ooit in on-premises centra stonden, naar de cloud. Vergeleken met een on-premise datawarehouse biedt een cloudwarehouse vele voordelen, waaronder lagere kosten, onbeperkte opslag- en computermogelijkheden, schaalbaarheid op basis van betalen naar gebruik en sneller herstel na noodgevallen. Organisatiestation kiest u best voor een cloudgebaseerd datawarehouse, aangezien dit veel voordelen heeft ten opzichte van het on-premises datawarehouse. Veelgebruikte datawarehouses zijn onder meer Teradata, Oracle Exadata, IBM DB2 Warehouse in de cloud, Amazon Redshift, Big Query van Google Cloudera's Enterprise Datahub en Snowflake Cloud Datawarehouse.

Bedrijven die Datawarehouse gebruiken

Lees meer over Datawarehouse op onze blog.

Wat zijn datamarts?

De datamart is een onderafdeling van het datawarehouse gebouwd voor een bepaalde operationele taak of een zakelijke functie, doel of gemeenschap van gebruikers. Er zijn specifieke redenen om datamarts te maken; de eerste is dat we gemakkelijk toegang hebben tot frequente gegevens. Ten tweede is de responstijd van de eindgebruiker verbeterd. Ten derde, eenvoudige creatie van datamart, omdat voor het creëren van het datawarehouse veel middelen en werk moeten worden gedaan, terwijl het creëren van datamart veel eenvoudig is in vergelijking met het datawarehouse. Er zijn minimale kosten die verband houden met datamart.

Er zijn drie soorten datamarts: afhankelijk, onafhankelijk en hybride. Afhankelijke datamarts worden gebouwd door gegevens uit het bestaande centrale magazijn te halen. Daarentegen worden onafhankelijke datamarts gemaakt door te putten uit operationele of externe gegevensbronnen of beide. Afhankelijke datamart biedt analytische mogelijkheden voor een beperkt datawarehouse-gebied. Bovendien biedt het ook geïsoleerde beveiliging en solo-optredens. Een hybride datamart combineert input van een datawarehouse, operationele systemen en externe systemen. Het verschil ligt in hoe de gegevens uit de bron worden gehaald, hoe gegevens zijn getransformeerd die moeten worden toegepast en hoe de gegevens naar de markt zijn getransporteerd. Dependent Data Mart haalt gegevens uit het enterprise datawarehouse, dat al is opgeschoond en getransformeerd. Onafhankelijke datamart moet het opschonen en transformeren van gegevens uitvoeren, aangezien de gegevens afkomstig zijn van de operationele systemen en externe bronnen. Wat het type ook is, het belangrijkste doel van de datamart is om de eindgebruikers te voorzien van gegevens die voor hen het meest relevant zijn wanneer ze die nodig hebben. Deze datamarts versnellen het bedrijfsproces en bieden een kosten- en tijdbesparende manier om de datagestuurde beslissing te nemen.

Wat is een Data Lake?

A Datameer is een opslagplaats van gegevens die: slaat alle soorten gegevens op, of ze nu gestructureerd zijn, ongestructureerd of semi-gestructureerd. Het bevat een grote hoeveelheid gegevens in zijn oorspronkelijke formaat.

Datameer

Bron: Beeld

Terwijl een datawarehouse gegevens opslaat die voldoende zijn opgeschoond, getransformeerd en klaar voor bedrijfsactiviteiten of analytische taken. Terwijl de gegevens in een datameer worden gedumpt, kunnen gegevens worden geladen zonder de structuur en het schema van de gegevens te definiëren. In eenvoudiger bewoordingen kunnen we zeggen dat een data lake een opslagplaats is die onbewerkte gegevens in zijn oorspronkelijke vorm bevat, rechtstreeks van de bron. Het betekent niet dat een data lake een plek is om je data te dumpen zonder governance. Hoewel de gegevens op de juiste manier zijn geclassificeerd in het datameer, worden ze beschermd en beheerd. Datameren kunnen worden ingezet met behulp van cloudobjectopslag zoals Amazon S3 of grootschalige gedistribueerde systemen zoals Apache Hadoop om big data te verwerken. Ze kunnen ook worden ingezet op een relationeel databasebeheersysteem of NoSQL-gegevensopslagplaatsen. Datameren bieden veel voordelen, zoals het opslaan van alle soorten data, zoals structurele, ongestructureerde en semi-gestructureerde data. Het tweede voordeel is dat u tijd bespaart bij het definiëren van de structuur, schema's en transformaties van de gegevens wanneer deze in onbewerkte indeling in het datameer worden geïmporteerd. Leveranciers die technologieën, platforms en referentiearchitecturen voor datameren leveren, zijn onder meer Amazon, Cloudera, Google, IBM, Informatica, Microsoft, Oracle, SAS, Snowflake, Teradata en Zaloni.

Eindnotities

Dit artikel leerde ons de mogelijkheden van dataminingrepositories, zoals datawarehouses, datamarts en datameren. Hoewel ze allemaal een vergelijkbaar doel hebben, moeten ze worden geëvalueerd binnen de use case en de technologie-infrastructuur om de beste te selecteren voor de behoeften van de organisatie.

Bron: https://www.analyticsvidhya.com/blog/2022/01/data-warehouses-data-marts-and-data-lakes/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?