Zephyrnet-logo

Wat is de volledigheid van gegevens en waarom is dit belangrijk? – DATAVERSITEIT

Datum:

SNP_SS / Shutterstock

De volledigheid van data is een belangrijk aspect van datakwaliteit. Gegevenskwaliteit is een verwijzing naar hoe accuraat en betrouwbaar de gegevens in het algemeen zijn. De volledigheid van gegevens richt zich specifiek op ontbrekende gegevens of hoe compleet de gegevens zijn, in plaats van zorgen over onnauwkeurige of dubbele gegevens. Een gebrek aan volledigheid van de gegevens is normaal gesproken het gevolg van informatie die nooit is verzameld. Als bijvoorbeeld de naam en het e-mailadres van een klant moeten worden verzameld, maar het e-mailadres ontbreekt, is het moeilijk om met de klant te communiceren.

Om data-analyse goed te laten functioneren, is bovendien een hoog niveau van volledigheid van de data nodig. Een groot probleem bij het oplossen van onvolledige gegevensproblemen is het gebrek aan software. Momenteel moeten ontbrekende gegevens handmatig worden ingevuld.

Ontbrekende stukjes informatie beperken of vertekenen het besluitvormingsproces. Pogingen om analyses uit te voeren op basis van onvolledige gegevens kunnen blinde vlekken en vooroordelen opleveren en resulteren in gemiste kansen. Momenteel gebruiken bedrijfsleiders Data analytics om beslissingen te nemen die variëren van marketing tot investeringsstrategieën tot medische diagnostiek. In sommige situaties worden nog steeds gegevens gebruikt waarin belangrijke stukjes informatie ontbreken, wat kan leiden tot gevaarlijke fouten en valse conclusies.

Het beoordelen en verbeteren van de volledigheid van gegevens moet plaatsvinden voordat er analyses worden uitgevoerd.

Voorbeelden van onvolledige gegevens en hun gevolgen

Een eenvoudig voorbeeld van hoe een gebrek aan volledigheid van gegevens de winst zou schaden, kan worden aangetoond door het ontbreken van belangrijke vastgoedgegevens, zoals vierkante meters. Zonder deze informatie kan een taxateur de waarde van het onroerend goed niet nauwkeurig beoordelen. Proberen de waarde van een appartement, een huis of zelfs een onontwikkeld perceel te schatten zou op zijn best onhandig en potentieel rampzalig zijn. Het inschatten van de kosten van een project zonder metingen zou tot een ramp kunnen leiden.

Onvolledige consumentengegevens vormen nog een voorbeeld van hoe een gebrek aan volledigheid van gegevens de winst kan schaden. In het algemeen, consumentengegevens wordt pas als volledig beschouwd als alle gevraagde gegevens succesvol zijn ingevuld en goed zijn opgeslagen. Het hebben van alleen een naam en woonadres helpt bijvoorbeeld niet bij marketing-e-mails. Ontbrekende gegevens kunnen de communicatie met potentiële klanten blokkeren. Andere potentiële problemen veroorzaakt door een gebrek aan volledigheid van de gegevens worden hieronder opgesomd: 

  • Operationele efficiëntie: Het gebruik van onvolledige gegevens kan de operationele efficiëntie schaden. Een gebrek aan volledige gegevens op het gebied van supply chain management of inventarisatie kan verstoringen en vertragingen veroorzaken.
  • Klanten inzicht: Onvolledige klantgegevens kunnen een beperkt beeld geven van het gedrag en de voorkeuren van de klant. Dit kan resulteren in het irriteren of zelfs beledigen van een klant. Wanneer bedrijven met een onvolledig verhaal werken, kan de ontbrekende informatie misvattingen creëren over de voorkeuren van de klant, markttrends, enz. Hiaten in de gegevens van de klant kunnen het vermogen om specifieke klanten te personaliseren en te targeten schaden.
  • Naleving van de regelgeving: Verschillende bedrijfstakken zijn er nu aan onderworpen reglement nauwkeurige en volledige gegevensrapportage vereisen. Een gebrek aan volledigheid van gegevens kan leiden tot boetes, juridische problemen en reputatieschade. Bovendien kunnen ontbrekende transacties leiden tot ondergerapporteerde inkomsten, wat op zijn beurt belastingproblemen veroorzaakt. 
  • Prognoses en planning: Als historische gegevens, die vaak worden gebruikt voor prognoses en planning, onvolledig zijn, kunnen ze een aanzienlijke negatieve impact hebben. 
  • Machine leren: Volledigheid van gegevens is noodzakelijk voor het ontwikkelen van training machine learning modellen die efficiënt functioneren. Ontbrekende gegevens kunnen vooroordelen veroorzaken en de voorspellende nauwkeurigheid van het systeem verminderen.
  • Strategische inzichten: Organisaties vertrouwen op de volledigheid van gegevens bij het onderzoeken van marketingmogelijkheden, het beoordelen van risico's en het optimaliseren van activiteiten. Voor strategische planning zijn volledige gegevens nodig.
  • Effectieve besluitvorming: Volledige gegevens zijn essentieel voor het maken geinformeerde keuzes. Toegang tot alle relevante gegevens ondersteunt een betere besluitvorming.
  • Nauwkeurige analyses: Het gebruik van onvolledige gegevens kan corrumperen een data-analyse. Wanneer cruciale gegevens ontbreken, kan dit de resultaten vertekenen, waardoor ongeldige conclusies zeer waarschijnlijk zijn.

Analyse en volledigheid van gegevens

Elke statistische analyse die is gebaseerd op gegevens met ontbrekende waarden heeft een verhoogde kans hierop bevooroordeeld zijn. De volledigheid van gegevens, als onderdeel van data-analyse, is essentieel bij het ontwikkelen van een model. De voor het onderzoek verzamelde gegevens moeten de reikwijdte van de onderzochte vraag bestrijken. Eventuele hiaten, ontbrekende waarden of geïntroduceerde vooroordelen hebben invloed op de resultaten.

Volledigheid van gegevens is noodzakelijk voor elke organisatie die afhankelijk is van gegevens voor onderzoek en besluitvorming.

Ervoor zorgen dat de gegevens compleet zijn

De volledigheid van gegevens heeft een aanzienlijke invloed op de gegevenskwaliteit en ondersteunt een goede communicatie met klanten, collega's en andere computersystemen. Het is belangrijk om prioriteiten te stellen en problemen met de volledigheid van gegevens op te lossen zodra deze zich voordoen. 

Door de volgende stappen te ondernemen, kunt u voorkomen dat onvolledige gegevens uw systemen binnenkomen:

  • Bepaal welke informatie cruciaal is: Wanneer formulieren worden gebruikt om informatie te verzamelen, zijn sommige velden noodzakelijk voor het zakendoen, terwijl andere dat niet zijn. De velden die cruciaal zijn voor analyses moeten worden geïdentificeerd.
  • Maak bepaalde velden verplicht: Sommige mensen gaan er automatisch van uit dat een telefoonnummer een vereiste is, maar hoe vaak wordt een telefoonnummer daadwerkelijk gebruikt bij het kopen van een artikel op een website? Een naam, verzendadres, e-mailadres en creditcard-/betaalkaartnummer zijn noodzakelijk, maar eventuele aanvullende informatie is bedoeld voor marketing of onderzoek. 
  • Gebruik dataprofilering: Gegevensprofilering kan een belangrijk aspect zijn bij de voorbereiding van gegevens voor verwerking en analyse. Gegevensprofilering is het proces waarbij gegevens worden onderzocht om het geheel ervan te bepalen Datakwaliteit. Bovendien omvat gegevensprofilering een beoordeling van brongegevens. (Brongegevens kunnen nuttig zijn bij het terugzoeken naar de ontbrekende gegevens.) 
  • Wijs de verantwoordelijkheid toe aan een individu of een team: Zorg voor een toegewijde persoon die verantwoordelijk is voor de volledigheid van de gegevens. Een team zou verantwoordelijk kunnen worden gemaakt voor de datakwaliteit als geheel.
  • De juiste gegevensbron gebruiken: Alleen vertrouwde gegevensbronnen zou gebruikt moeten worden. Deze bronnen moeten de nadruk leggen op gegevenskwaliteit, nauwkeurigheid en volledigheid.

Regelgevings- en nalevingsrisico's

Hoewel winst vaak wordt beschouwd als het primaire doel van veel bedrijven, zijn deze zelfde bedrijven wettelijk verplicht om hieraan te voldoen bepaalde normen. Veel organisaties zijn onderworpen aan strikte regelgeving die volledige en nauwkeurige rapportage verplicht stelt. Als een bedrijf onvolledige gegevens verstrekt, kan het worden aangeklaagd wegens niet-naleving, met boetes en juridische complicaties tot gevolg.

Een nonchalante houding ten opzichte van regelgeving en online zakenwetten kan meer schade aanrichten dan eenvoudige financiële sancties. Een juridische misstap kan de reputatie van een bedrijf schaden. Schade aan de reputatie van een bedrijf kan het aantrekken van nieuwe klanten tot een uitdaging maken. 

Het gebrek aan softwaretools voor de volledigheid van gegevens

Het gebrek aan software die beschikbaar is voor de volledigheid van gegevens hoeft geen verrassing te zijn. Bedenk dat het corrigeren van de spelling van een woord of naam gebruikelijk is, dus het verbeteren van de gegevenskwaliteit door gegevens te corrigeren is niet moeilijk. Het zoeken naar dubbele gegevens is ook niet moeilijk voor de juiste software. 

Maar een lege plek invullen? Wat zet je in de lege ruimte? Als u de informatie direct bij de hand had, zou dit geen probleem zijn. In plaats daarvan vereist je enige hoop om die lege plek in te vullen tijdrovend onderzoek. En een softwareprogramma of AI zal precies hetzelfde probleem hebben. 

Er zijn een paar softwareprogramma's beschikbaar die werken met gespecialiseerd onderzoek dat gebruik maakt van zeer gestandaardiseerde informatie. Deze programma's 'voorspellen' wat de ontbrekende informatie zou moeten zijn. Helaas kunnen er zelfs met zeer gestandaardiseerde informatie fouten worden gemaakt en moet een mens correcties beoordelen.

De toekomst van de volledigheid van gegevens

De meest efficiënte methode om de lege plekken in te vullen is om dit samen met de klant te doen, of op een moment dat de informatie gemakkelijk beschikbaar is. “Verplichte velden” is misschien een te simplistische oplossing, omdat het verkooptransacties kan blokkeren als de potentiële klant de vereiste informatie mist of niet wil delen.

Een gedeeltelijke oplossing zou software zijn die ontbrekende informatie in de gegevens opspoort en identificeert, en vervolgens de locatie ervan aangeeft. 

ChatGPT kan een mogelijke oplossing zijn, waarbij het onderzoek wordt uitgevoerd dat nodig is om de ontbrekende stukjes informatie in te vullen. Een zorg bij deze oplossing is dat het resulterende onderzoek dubbel gecontroleerd zou moeten worden door een mens (nog steeds minder tijdrovend dan het zelf doen van het onderzoek); ChatGPT heeft er een reputatie voor opgebouwd fantasierijk zijn en het creëren van antwoorden op vragen wanneer het geen antwoord kan vinden. 

spot_img

Laatste intelligentie

spot_img