Datakwaliteitsdimensies - Plato Data Intelligence

Gegevenskwaliteitsdimensies zijn nuttige concepten voor het verbeteren van de kwaliteit van gegevensactiva. Hoewel gegevenskwaliteitsdimensies al vele jaren worden gepromoot, zijn de beschrijvingen van hoe ze daadwerkelijk moeten worden gebruikt, vaak wat vaag.

Gegevens die van hoge kwaliteit worden geacht, zijn consistent en eenduidig. Arm Datakwaliteit resulteert in inconsistente en dubbelzinnige gegevens - gegevens uit verschillende bronnen kunnen verschillende adressen, inconsistente voorkeuren, enz. vertonen. Een slechte gegevenskwaliteit kan het gevolg zijn van samengevoegde databases of van nieuwe informatie die wordt gecombineerd met oude informatie, in plaats van deze te vervangen.

SCHRIJF U IN VOOR ONZE LIVE ONLINE DATA GOVERNANCE TRAINING

Neem deel aan ons driedaagse seminar om uw kennis van Data Governance te vergroten en een CDMP-specialist te worden.

Gegevenskwaliteitsdimensies zijn vergelijkbaar met de manier waarop breedte, lengte en hoogte worden gebruikt om de grootte van een fysiek object uit te drukken. Deze dimensies van gegevenskwaliteit helpen ons om gegevenskwaliteit te begrijpen op basis van zijn schaal en door deze te vergelijken met gegevens die op dezelfde schaal zijn gemeten. Gegevenskwaliteit zorgt voor: de gegevens van een organisatie kunnen gemakkelijk worden verwerkt en geanalyseerd voor elk type project.

Wanneer de gegevens die worden gebruikt van hoge kwaliteit zijn, kunnen deze worden gebruikt voor AI-projecten, business intelligence en een verscheidenheid aan analyseprojecten. Als de gegevens fouten of inconsistente informatie bevatten, kunnen de resultaten van een project niet worden vertrouwd. de nauwkeurigheid van Datakwaliteit kan worden gemeten met behulp van gegevenskwaliteitsdimensies.

Het concept van de dimensies van gegevenskwaliteit werd voor het eerst beschreven en gepubliceerd in 1996 door de professoren Diane Storm en Richard Wang (Voorbij nauwkeurigheid: wat datakwaliteit betekent voor dataconsumenten). Ze herkenden 15 dimensies. In 2020 heeft de Vereniging Gegevensbeheer (DAMA) ontwikkelde een lijst met: 65 dimensies en subdimensies voor gegevenskwaliteit, variërend van "vermogen" tot "identificeerbaarheid" tot "volatiliteit".

Gegevenskwaliteitsdimensies kunnen worden gebruikt om de nauwkeurigheid van gegevens te meten (of te voorspellen). Dit meetsysteem maakt het mogelijk: gegevens stewards om de gegevenskwaliteit te bewaken, minimumdrempels te ontwikkelen en de hoofdoorzaken van inconsistenties in de gegevens weg te nemen. Er is momenteel echter geen vaste standaard voor deze metingen. Elke datasteward heeft de mogelijkheid om een eigen meetsysteem te ontwikkelen. Het proces omvat het nemen van monsters van de gegevens van de organisatie om baselines vast te stellen.

De metingen die aan deze dimensies zijn gekoppeld, werken goed bij het opzetten van automatiseringssystemen en kunnen worden gebruikt met regels die zijn toegevoegd aan de tools voor gegevenskwaliteit die worden gebruikt. De verschillende dimensies van gegevenskwaliteit bevatten doorgaans dezelfde zes kerndimensies.

De zes meest gebruikte dimensies voor gegevenskwaliteit

De zes kerndimensies zijn:

Nauwkeurigheid: Deze dimensie meet gegevens waarmee wordt geprobeerd objecten of gebeurtenissen uit de echte wereld te modelleren. De gegevens worden vaak gemeten door ze te vergelijken met bronnen waarvan bekend is dat ze correct zijn. Idealiter wordt nauwkeurigheid vastgesteld met primair onderzoek, maar vaak worden referenties van derden gebruikt voor vergelijkingsdoeleinden, om de nauwkeurigheid te meten. Overweeg een Europese school die aanvragen voor het volgende semester accepteert. Bij het invullen van de aanvraag dient het Europese dateringsformaat te worden gebruikt (dag/maand/jaar; bijvoorbeeld 31/09/2021). Een Amerikaanse ouder kan het formulier echter invullen in het Amerikaanse datingformaat (09-31-2021). De Amerikaanse datum die in de database is opgeslagen, zou verwarrend zijn voor het Europese personeel en moet worden gecorrigeerd.

Volledigheid: Alle vereiste records en waarden moeten beschikbaar zijn zonder ontbrekende informatie. Bij volledigheid worden de opgeslagen gegevens vergeleken met het doel om 100% volledig te zijn. Volledigheid meet geen nauwkeurigheid of validiteit; het meet welke informatie ontbreekt. Bijvoorbeeld een adres op een lidmaatschapsformulier. Als drie van de 100 formulieren adressen missen, zijn de gegevens, met betrekking tot adressen, voor 97% volledig.

Consistentie: Deze dimensie gaat over een gebrek aan verschil wanneer twee of meer gegevensitems worden vergeleken. Gegevens afkomstig uit meerdere bronnen mogen (in een ideale wereld) niet met elkaar conflicteren. (Opgemerkt moet worden dat consistente gegevens niet noodzakelijkerwijs betekenen dat ze volledig of nauwkeurig zijn.) De consistentie Datakwaliteit dimensie wordt gemeten tegen zichzelf, hoewel het ook kan worden gemeten tegen zijn tegenhanger in een andere dataset of database. Een voorbeeld van consistentie kan worden aangetoond door de database van een school met de geboortedatum van een leerling die hetzelfde formaat en dezelfde waarde toont in zowel het schoolregister als de documenten die zijn verzonden door de school waarvan de leerling overstapt.

Tijdigheid: De werkelijke aankomsttijd van de gegevens wordt afgezet tegen de voorspelde of gewenste aankomsttijd. Een voorbeeld van deze dimensie kan een verpleegkundige zijn die op 1 maart een adreswijziging doorgeeft aan de administratie en de informatie op 3 maart in de database wordt ingevoerd. Ziekenhuisrichtlijnen suggereren dat de gegevens binnen twee dagen moeten worden ingevoerd, maar de gegevensinvoer is eigenlijk een dag te laat. Tijdigheid zou meten hoe vaak dit gebeurt en kan worden gebruikt om meer specifieke informatie te krijgen over elk geval van 'te laat komen'. (Bedenk wat er zou gebeuren als luchtverkeersleiders een enkele dagelijkse download van het radarsysteem zouden ontvangen, in plaats van het luchtverkeer in realtime te observeren. Tijdigheid kan belangrijk zijn.)

geldigheid: Deze dimensie meet hoe gegevens voldoen aan vooraf gedefinieerde bedrijfsregels. Wanneer deze regels worden toegepast, vallen de gegevens binnen gedefinieerde parameters. Een bedrijf wijst bijvoorbeeld elke werknemer een ID toe op basis van hun achternaam, aanwervingsdatum en functieclassificatie. Joanna Blake is net begonnen en heeft een ID gekregen met de tekst "Blak12/21JA". De "J" staat voor conciërge en de "A" staat voor "alle gebieden". De database toont Joanna echter als Blak12/21JS vanwege een typfout (de S betekent niets en maakt haar veiligheidsmachtiging ongeldig). Nadat Joanna de situatie aan haar manager heeft uitgelegd, wordt besloten om haar fysieke sleutels te geven, in plaats van het probleem over te dragen aan de IT-afdeling, die een validiteitstest op de database zou uitvoeren. De validiteitstest zou niet alleen Joanna's ID corrigeren, maar ook fouten gemaakt op andere werknemers-ID's, waardoor het hele bedrijf een beetje soepeler loopt.

uniciteit: Dit is ontworpen om te voorkomen dat dezelfde gegevens op meerdere locaties worden opgeslagen. Wanneer gegevens uniek zijn, bestaat er geen record meer dan één keer in een database. Elke rec
ord kan uniek worden geïdentificeerd, zonder redundante opslag. Het proces is gebaseerd op hoe gegevensitems worden geïdentificeerd. In dit geval worden de gegevens tegen zichzelf (of misschien een andere database) gemeten, zoals in: "Oh, kijk. Joe Blow heeft twee dossiers, en hij zou er maar één moeten hebben.' Uniciteit wordt ook vergeleken met de echte wereld. Stel dat een school 100 leerlingen heeft. Maar uit de gegevens blijkt dat het 108 studenten heeft. Acht bestanden zijn gedupliceerd. Geen probleem, maar sommige van de gedupliceerde bestanden kunnen worden bijgewerkt, terwijl de originele bestanden dat niet waren. Dat zou tot enige verwarring kunnen leiden.

Hoewel alle zes dimensies over het algemeen als belangrijk worden beschouwd, kunnen organisaties bepalen dat sommige meer nadruk moeten krijgen dan andere, met name voor bepaalde industrieën. (Of ze hebben misschien een van de 65 dimensies en subdimensies nodig die door DAMA zijn gecreëerd.) De financiële industrie hecht bijvoorbeeld meer waarde aan validiteit, terwijl de farmaceutische industrie prioriteit geeft aan nauwkeurigheid.

Complicaties

Veel organisaties communiceren of definiëren hun gegevensverwachtingen niet wanneer ze gegevens uit andere bronnen ontvangen. Weinigen bieden duidelijke, meetbare verwachtingen over de opmaak of toestand van gegevens voordat deze naar hen worden verzonden. Zonder duidelijke verwachtingen te communiceren, is het niet mogelijk om de kwaliteit van de ontvangen gegevens te meten.

wanneer een organisatie definieert zijn vereisten, het betreft vaak een project, met een focus op het soort gegevens dat nodig is en het formaat. Als gevolg hiervan zijn gegevensvereisten vaak gericht op het in kaart brengen, modelleren en implementeren van business intelligence-tools van bron tot doel. Het gebruik van dezelfde gegevens voor verschillende doeleinden kan ook problemen veroorzaken. Elk "doel" kan verschillende verwachtingen hebben. In sommige situaties kunnen gegevensitems uit verschillende bronnen met elkaar in conflict zijn.

Hulpmiddelen voor gegevenskwaliteit

De gegevenskwaliteit kan worden onderzocht terwijl mensen het beoordelingsproces uitvoeren, maar dit zou traag en vervelend zijn, met een grote kans op menselijke fouten. Omdat sommige dimensies van gegevenskwaliteit een formule gebruiken, software tools kan worden gebruikt om een beoordeling van de Datakwaliteit te automatiseren.

Elke dimensie bevat onderliggende concepten en deze concepten (en de bijbehorende metrieken) zorgen voor de ontwikkeling van formules die computers kunnen gebruiken. Gartner heeft verstrekt een lijst van tools voor gegevenskwaliteit die nuttig kunnen zijn.

Problemen met gegevenskwaliteit

Problemen met de gegevenskwaliteit kunnen tijd verspillen en de productiviteit verminderen. Ze kunnen ook de klanttevredenheid schaden of zelfs leiden tot boetes voor niet-naleving van de regelgeving.

Slechte gegevenskwaliteit kan ook kansen voor een bedrijf verbergen of hiaten achterlaten in het begrip van zijn klantenbestand. Nissan Europe, bijvoorbeeld, gebruikte klantgegevens die onbetrouwbaar waren en verspreid waren over verschillende niet-verbonden systemen, waardoor het moeilijk was om gepersonaliseerde advertenties te genereren. Door de datakwaliteit te verbeteren, heeft Nissan Europe nu een beter begrip van hun huidige en potentiële klanten, waardoor ze de communicatie met klanten kunnen verbeteren.

Slechte gegevenskwaliteit verspilt tijd en energie, en het handmatig corrigeren van fouten in een database kan opmerkelijk tijdrovend zijn.

Afbeelding gebruikt onder licentie van Shutterstock.com

Generatieve data-intelligentie

Afmetingen gegevenskwaliteit

SCHRIJF U IN VOOR ONZE LIVE ONLINE DATA GOVERNANCE TRAINING

De zes meest gebruikte dimensies voor gegevenskwaliteit

Complicaties

Hulpmiddelen voor gegevenskwaliteit

Problemen met gegevenskwaliteit

Carlie Hanson brengt hulde met haar oprechte cover van Alice In Chains' 'Nutshell'

Hyundai gaat meer hybrides bouwen om de afnemende vraag naar elektrische voertuigen aan te vullen – Autoblog

Laatste intelligentie

Drake bedreigd met rechtszaak over Tupac AI-zang

Exclusieve Trump Bitcoin NFT's met aangepaste rangtelwoorden voor kopers van 'Mugshot Edition' - CryptoInfoNet

Bedrijf biedt digitale financiële geletterdheidstraining voor Nigerianen - CryptoInfoNet

BDAG leidt de top 5 van veelbelovende crypto-voorverkoop van 2024

Hoe u het marktsentiment kunt beoordelen voordat u cryptocurrency koopt

BlockDAG's liquiditeits- en vestingperiode van $ 100 miljoen te midden van SOL-netwerkproblemen en DOT-prijsvoorspellingen