Zephyrnet-logo

Hulpmiddelen voor gegevenscatalogus

Datum:

datacatalogus toolsdatacatalogus tools

Datacatalogustools werken met datacatalogi om ze efficiënter te maken. Datacatalogi worden meestal geleverd met tools die deel uitmaken van het datacataloguspakket. De tools die bij datacatalogi worden geleverd, zijn ontwikkeld ter ondersteuning van datakwaliteit, analyse en naleving van regelgeving inzake gegevensprivacy. Helaas bestaat het aantal onafhankelijk verkregen tools voor datacatalogi in wezen niet. 

Over het algemeen zijn de onafhankelijke tools die in verschillende artikelen worden beschreven als ondersteunende datacatalogi, data-analyseplatforms die de datacatalogus als tool gebruiken. 

In de meeste artikelen met de titel 'Gegevenscatalogustools' gaat het onderwerp uiteindelijk over gegevenscatalogi, niet over de hulpmiddelen die zijn ontworpen om ze aan te vullen. (Softwareontwikkelaars let op: het enorme aantal zoekopdrachten suggereert dat er behoefte is aan tools voor gegevenscatalogus.)

Gegevenscatalogi worden gebruikt om de gedetailleerde inventaris van de gegevensactiva van een organisatie te ontwikkelen en op te slaan en zijn ontworpen om onderzoekers te helpen bij het vinden van nuttige gegevens, indien nodig. Ze gebruiken metadata - een label dat gegevens gebruikt om gegevensbestanden en bedrijfsmiddelen samen te vatten en te identificeren - om gegevens te verzamelen, ordenen en openen, en om een ​​doorzoekbare inventaris voor de gegevens van de organisatie te ondersteunen.

De inventaris van de gegevenscatalogus biedt onderzoekers, analisten en andere gegevensgebruikers gestroomlijnde toegang tot de gegevens van de organisatie. 

Toen de datacatalogus voor het eerst werd geïntroduceerd, was het een eenvoudige, eenvoudige tool voor het beheer van metadata die door IT-teams werd gebruikt. Met de ontwikkeling van big data-onderzoek moesten datacatalogi functioneler, flexibeler en intelligenter worden. Machine learning-algoritmen ondersteunden de ontwikkeling van deze verbeteringen.  

Een moderne, goed ontworpen datacatalogus moet machine learning-mogelijkheden hebben, waardoor onderzoek en data-analyse snel en efficiënt kunnen worden uitgevoerd. Het moet gebruikers de beschikbare data-assets, hun locatie en hun relaties met andere data-assets en metadata laten zien. 

Deze machine learning-processen ondersteunen tools voor het ontdekken van metadata, die helpen om de datacatalogus relevant en volledig te houden.

Machine Learning Tools voor gegevenscatalogi

Het gebruik van machine learning met datacatalogi heeft een aanzienlijke impact op hun efficiëntie. machine learning (ML) wordt gebruikt om moderne datacatalogi aan te vullen en om het gebruik van metadata voor onderzoek en dataprofilering (het ontwikkelen van bruikbare samenvattingen van de data) te automatiseren. De tools die worden gebruikt door zogenaamde machine learning-gegevenscatalogi maken doorgaans deel uit van het pakket. 

Machine learning – een fundamenteel onderdeel van kunstmatige intelligentie - gebruikt algoritmen om automatisch beslissingen te nemen bij het opslaan en lokaliseren van gegevens in de gegevenscatalogus.

Een datacatalogustool voor machine learning maakt gebruik van geavanceerde algoritmen en technieken om verschillende geautomatiseerde services te ondersteunen. Deze catalogi scannen gegevens en metadata automatisch. Ze helpen bij het ontdekken van datastructuren, relaties en inhoud. 

Datacatalogi voor machinaal leren stroomlijnen en automatiseren ook datacuratieprocessen, waaronder classificatie, datatagging en de koppeling van de woordenlijsttermen van het bedrijf aan de technische data-assets. Ze verhogen de productiviteit en versnellen de voltooiing van projecten door algemene Data Management-taken te automatiseren.

Een datacatalogus voor machine learning moet deze functies bevatten:

  • Gegevensclassificatie: Gegevensactiva en -bestanden moeten automatisch worden geclassificeerd en op de juiste manier worden opgeslagen. Dit classificatieproces moet inhoud automatisch inspecteren op waarden en patronen in de gegevens. 
  • Gegevensdetectie: Dit biedt een manier om de gegevens van een organisatie te identificeren, classificeren en inventariseren in verschillende gegevenslandschappen, zoals filialen en de cloud. Het proces omvat het verbinden van verschillende gegevensbronnen, het opschonen en voorbereiden van de gegevens en het beschikbaar maken ervan in de hele organisatie. Het detecteert ook patronen en afwijkingen.

Machine learning-gegevenscatalogi bieden de automatische catalogisering van gegevens, met context en in realtime.

  • Gegevens taggen: Dit voegt metadata toe aan databestanden en datasets met behulp van sleutel-waardeparen, die context aan de data geven. Gegevens taggen maakt het gemakkelijker om de gegevens te lokaliseren en ermee te werken. Gegevenstagging is vooral handig voor onderzoek en analyse. Hiermee kunnen gebruikers gegevens efficiënter vinden door delen van informatie (bijvoorbeeld websites of foto's) te koppelen aan tags of trefwoorden.
  • Gegevens afstamming: Dit is het geautomatiseerde proces van het volgen van gegevens terwijl deze veranderen, waardoor inzicht wordt verkregen in de bron van de gegevens, de aangebrachte wijzigingen en de bestemming van de gegevens binnen een gegevenspijplijn. Gegevenslijn biedt een overzicht van de gegevens door de geschiedenis heen, inclusief eventuele transformaties die mogelijk hebben plaatsgevonden tijdens ELT- of ETL-processen. Het gebruik van data lineage verbetert de datakwaliteit.
  • Gegevensbeheer: Dit proces omvat het verzamelen, opschonen, ordenen en labelen van gegevens. ML-datacatalogi valideren en organiseren de metadata met behulp van machine learning-algoritmen. Datacuratoren gebruiken de datacatalogus vaak als een bron van betrouwbare informatie.
  • Semantische gevolgtrekking: In 2001 publiceerden Tim Berners-Lee (uitvinder van het world wide web), Ora Lassila en James Hendler een artikel in Scientific American introductie van het concept van het semantische web, wat op zijn beurt leidde tot semantische gevolgtrekkingen. Semantische gevolgtrekking is onlangs toegepast op gegevenscatalogi - en zal verder worden ontwikkeld.   

Andere geautomatiseerde services die beschikbaar zouden moeten zijn bij het gebruik van een ML-datacatalogus zijn:

  • Metadata extractie
  • Tagging en classificatie van gegevens
  • Ontdekking van relaties tussen gegevensactiva
  • Levering van intelligente aanbevelingen aan onderzoekers
  • Profilering van gegevens om de kwaliteit ervan te beoordelen
  • Zakelijke woordenlijsttermen associëren met technische gegevensmiddelen
  • Semantische zoekopdrachten

Tools voor gegevenscatalogi: waar u op moet letten

Gegevenscatalogi voor machinaal leren zijn superieur aan eerdere ontwerpen voor gegevenscatalogi omdat ze gegevensafstamming volgen en analyseren hoe gegevens intern worden gebruikt. Het volgen van gegevensafstamming is noodzakelijk geworden voor adressering voorschriften voor privacybescherming (AVG, CCPA). Bovendien kunnen ze metadata van nieuwe en huidige datasets verwerken en ze taggen volgens de regels van de organisatie.

Omdat ML-gegevenscatalogi in realtime werken, kunnen ze helpen bij het verwerken van streaminggegevens van de internet van dingen (IoT) en ondersteunt real-time analyses. 

Andere zaken om te overwegen zijn:

  • Internationale naleving van wet- en regelgeving: Momenteel hebben 107 landen regelgeving opgesteld om de privacy van persoonsgegevens te beschermen. Een gegevenscatalogus kan het naleven van deze voorschriften vereenvoudigen door de gegevensactiva van het bedrijf te profileren, hun relevantie voor regelgeving af te leiden (zoals in "semantische gevolgtrekking") en gegevensactiva automatisch te classificeren en te taggen.
  • Eenvoudige integratie met data-assets: De gegevenscatalogus moet verbinding kunnen maken met alle activa in het bedrijf. Daarnaast kan het handig zijn om een ​​datacatalogus te vinden die kan worden geïntegreerd met lokale systemen, de cloud en hybride systemen.
  • Kunstmatige intelligentie als zorg: Bedrijven vertrouwen steeds vaker op hun Data Governance-software om kunstmatige intelligentie te coördineren en te gebruiken. Als onderdeel van een Data Governance-programma kunnen sommige datacatalogi helpen bij het taggen en voorbereiden van data-assets voor optimaal AI-gebruik en transparantie.

De voordelen van machine learning-gegevenscatalogi

Wanneer dataonderzoekers toegang hebben tot de data die ze nodig hebben – zonder hulp van IT – kunnen ze sneller en efficiënter werken. Over het algemeen bieden gegevenscatalogi een inventaris van gegevensbestanden en bedrijfsmiddelen die het voor niet-technisch personeel gemakkelijk maken om gegevens te lokaliseren. 

Gegevenscatalogi voor machinaal leren bieden echter een beter begrip van de gegevens door een verbeterde context: onderzoekers hebben toegang tot gedetailleerde beschrijvingen van de gegevens, inclusief de opmerkingen van andere onderzoekers. Dit kan een beter begrip geven van hoe de gegevens relevant zijn, voordat ze worden gelezen.

Andere voordelen die gegevenscatalogi voor machine learning voor bedrijven kunnen bieden, zijn:

  • Verbeterde datakwaliteit verbetert de besluitvorming 
  • Relatiemetadata worden getoond, per kennisgrafieken, en bieden een 360-gradenweergave van de gegevens, leggen semantische relaties vast en stellen gebruikers in staat om snel te zoeken
  • Biedt detectie van gegevensafwijkingen, identificeert gevoelige persoonlijke gegevens die niet mogen worden gedeeld, en markeert risicovolle gegevensactiva en afwijkingen
  • Automatiseert gegevensintegratie, gegevenskwaliteit, gegevensvoorbereiding en andere gegevensbeheeractiviteiten. Het versnelt ook de ontwikkeling van business intelligence door het automatisch ontdekken, taggen en samenwerken van gegevens
  • Met ML verrijkte datacatalogi leren in de loop van de tijd van gebruikers 

Implementeren van de datacatalogus

Het implementeren van een datacatalogus in een Data Governance-systeem vereist een aanzienlijke investering in tijd en software - een investering die de meeste organisaties liever maar één keer doen. Hieronder vindt u de vereiste stappen:   

  • De eerste stap bij het selecteren van een gegevenscatalogus is het maken van een lijst van de geautomatiseerde taken waarvoor de gegevenscatalogus zal worden gebruikt.
  • De tweede stap omvat het onderzoeken van gegevenscatalogi die aan uw behoeften voldoen, binnen uw budget passen en compatibel zijn met die van de organisatie Data Governance programma en programmatuur. (Als uw organisatie momenteel geen Data Governance-programma heeft, zou dat wel zo zijn het onderzoeken waard.) Een datacatalogus moet compatibel zijn met de software en tools van uw organisatie, inclusief datakwaliteitsregels en zakelijke woordenlijsten.
  • De derde stap behandelt het plannen van de installatie en vervolgens het uitvoeren van de installatie. 

De toekomst van gegevenscatalogi 

Gegevenscatalogi evolueren snel naar een vorm van data-intelligentieplatforms. Sommigen voorspellen dat de gegevenscatalogus een gecentraliseerd archiefsysteem voor bedrijven zal worden. 

Momenteel zijn gegevenscatalogi beperkt tot gestructureerde gegevens, maar de komende jaren zullen ze naar verwachting het werken met semi-gestructureerde en ongestructureerde gegevens ondersteunen. De datacatalogus wordt de primaire locatie voor onderzoek. 

Er zal een verscheidenheid aan softwaretools worden ontwikkeld om met gegevenscatalogi te werken.

Machine learning-gegevenscatalogi werken met actieve metagegevens in plaats van passieve metadata. In plaats van simpelweg metadata te verzamelen en op te slaan in een passieve datacatalogus, bieden machine learning datacatalogi een tweerichtingscommunicatiesysteem, waarbij verrijkte metadata teruggestuurd worden naar de bron en de juiste bestanden en systemen worden bijgewerkt.

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img