Zephyrnet-logo

Gegevenskwaliteit: het goede, het slechte en het lelijke

Datum:

Gegevenskwaliteit: het goede, het slechte en het lelijke
Achtergrondvector gemaakt door rawpixel.com - www.freepik.com

 

Pleisteroplossingen pakken de oorzaak van het probleem niet aan. Het maken van datavisualisaties om de data er mooi uit te laten zien of het toepassen van een beslisboom op onreine data is gewoon tijdverspilling. Je kunt alle modellen ter wereld maken, maar het heeft geen zin als je je bevindingen presenteert en er fouten één voor één opduiken. Wat als uw bevindingen als evangelie werden beschouwd en het bedrijf op basis hiervan belangrijke beslissingen neemt? Niemand van ons wil in die ongemakkelijke positie verkeren.

Onjuiste of onreine gegevens leiden tot verkeerde conclusies. De tijd die u nodig heeft om de gegevens te begrijpen en op te schonen, is van vitaal belang voor het resultaat en de kwaliteit van de resultaten. Data Quality wint altijd van complexe fancy algoritmen. 

Dus wat is datakwaliteit?

 
Datakwaliteit is de maatstaf voor hoe geschikt een dataset is om zijn specifieke doel te dienen en hoe vertrouwd het is om vertrouwde beslissingen te nemen. Het bestaat uit kenmerken zoals nauwkeurigheid, volledigheid, consistentie, validiteit en tijdigheid. Laten we deze kort verder opsplitsen.

  1. Nauwkeurigheid: Dit verwijst naar hoe goed de gegevens real-world scenario's weerspiegelen; het van nut te laten zijn. 
  2. Volledigheid: Een dataset met te veel hiaten of lege plekken zal niet in staat zijn om de juiste analyse te doorlopen om specifieke vragen te beantwoorden.
  3. Consistentie: Gegevens die op één locatie zijn opgeslagen, moeten hetzelfde zijn en mogen niet in strijd zijn met dezelfde gegevens die op een andere locatie zijn opgeslagen.
  4. Geldigheid: Dit verwijst naar de manier waarop de gegevens worden verzameld en definieert bedrijfsregels en -voorschriften. Het moet in het juiste formaat zijn en binnen het juiste bereik vallen.
  5. Tijdigheid: Gegevens die direct beschikbaar en toegankelijk zijn, zijn voordeliger dan gegevens die na verloop van tijd minder nuttig en nauwkeurig worden voor een bedrijf. 

Wat zorgt voor datakwaliteit?

 
Specifieke tools voor datakwaliteit kunnen worden gebruikt om de kwaliteit van de data te verbeteren en in te schatten. Bijvoorbeeld:

  1. Gegevensprofilering: Dit is het onderzoeken van de bron van de gegevens, het begrijpen van de structuur en het mogelijke gebruik ervan. 
  2. Gegevensstandaardisatie: Dit is het proces om gegevens in een gemeenschappelijk formaat te brengen waarmee analisten de gegevens kunnen gebruiken.
  3. Monitoren: Frequente controles op de kwaliteit van gegevens zijn essentieel. Er zijn specifieke tools die kunnen worden ingezet waarmee gegevens kunnen worden opgespoord en gecorrigeerd. 
  4. Historisch en realtime: Gegevens die eerder zijn opgeschoond, stellen analisten in staat hetzelfde kader voor gegevenskwaliteit toe te passen op andere gebieden van gegevens en toepassingen.

Een voorbeeld van realtime datakwaliteit in de zorgsector is ervoor zorgen dat de patiëntgegevens juist en valide zijn. Dit is essentieel voor documentatie, betalingen, risicobeheer en bescherming van patiëntgegevens. 

Positieve effecten van gegevenskwaliteit

  1. Besluitvorming: Hoe hoger de kwaliteit van de gegevens, hoe meer bedrijven en gebruikers zullen vertrouwen bij het nemen van belangrijke beslissingen op basis van de geproduceerde output. Dit verkleint op zijn beurt het risico dat het bedrijf de verkeerde beslissing neemt. 
  2. Productiviteit: Niemand wil urenlang bezig zijn met het repareren van datafouten. Als in de eerste stap de juiste maatregelen worden genomen, kan het personeel zich concentreren op de volgende stappen en andere verantwoordelijkheden. 
  3. Doelen: Kwaliteitsgegevens kunnen zorgen voor nauwkeurigheid in de huidige en toekomstige doelen van bedrijven, bijvoorbeeld doordat het marketingteam beter begrijpt wat wel en niet werkt.
  4. Conformiteit: Er zijn veel industrieën waar specifieke richtlijnen worden gebruikt om gegevens privé te houden en te beschermen tegen inbreuken of mogelijke aanvallen. Het gebrek aan handhaving van goede kwaliteit in de financiële sector kan leiden tot miljoenen dollars aan boetes of witwassen. 

Negatieve gevolgen van slechte gegevenskwaliteit

  1. Verliezen van uw concurrenten: Als uw concurrenten betere gegevens hebben dan u, kan het geven van meer inzicht leiden tot gemiste kansen en mogelijke schade voor het bedrijf. Laat uw concurrenten er niet een over u hebben!
  2. Inkomsten: Beslissingen baseren op onjuiste gegevens kan omzetderving veroorzaken. Het nemen van politieke beslissingen op basis van demografische gegevens die onjuist zijn, kan bijvoorbeeld sociale en financiële problemen veroorzaken. 
  3. Reputatie: Iedereen wil zijn reputatie verbeteren en behouden, zeker als het om geld gaat. Beslissingen op basis van slechte gegevens kunnen zo schadelijk zijn voor een bedrijf dat ze investeerders of mogelijk hun bedrijf kunnen verliezen. Mensen hebben de neiging om het slechte boven het goede te onthouden.

 
 

Conclusie

 
Stel uzelf bij het bekijken van gegevens de volgende vragen:
 
1. Hoe zijn de gegevens verzameld?

De bron van de gegevens is belangrijk. Zijn de gegevens bijvoorbeeld verzameld via een overheidstelling, of zijn ze verzameld door iemand die de gegevens handmatig heeft gemaakt voor hun persoonlijke behoeften en deze heeft geüpload naar Kaggle. Het verzamelen van gegevens van mensen die onderweg zijn naar hun werk en niet zo geïnteresseerd zijn, is iets anders dan hen een weblink van een enquête te sturen die ze in hun eigen tijd kunnen invullen. 

2. Wat stellen de gegevens voor?

Zijn de gegevens een goede weergave van wat u of het bedrijf zoekt? Concrete uitspraken doen over statistische demografische gegevens over Frankrijk met behulp van gegevens die in Parijs zijn gevestigd, is onnauwkeurig. 

3. Hoe ziet het proces voor het opschonen van gegevens eruit?

Er zijn verschillende methoden om gegevens op te schonen, het is belangrijk om een ​​specifieke methode te kiezen die uniek is voor die specifieke dataset of dat datatype. 

4. Wat doet u om de gegevenskwaliteit te handhaven?

Investeren in de juiste mensen en infrastructuur om de kwaliteit van uw gegevens te behouden en continu te verbeteren, is van cruciaal belang in technologie. 

Het is altijd beter om jezelf te beschermen tegen een probleem dat vermijdbaar is, dan er direct op in te gaan en tijd en moeite te steken in het bedenken van een oplossing. Ik zeg altijd: doe het een keer goed en je hoeft er niet meer op terug te komen. 

 
 
Nisha Arja is een datawetenschapper en freelance technisch schrijver. Ze is vooral geïnteresseerd in het geven van loopbaanadvies op het gebied van Data Science of tutorials en op theorie gebaseerde kennis rond Data Science. Ze wil ook de verschillende manieren onderzoeken waarop kunstmatige intelligentie de levensduur van de mens ten goede komt. Een scherpe leerling, die haar technische kennis en schrijfvaardigheid wil verbreden, terwijl ze anderen helpt te begeleiden.

Bron: https://www.kdnuggets.com/2022/01/data-quality-good-bad-ugly.html

spot_img

Laatste intelligentie

spot_img