Zephyrnet-logo

Bouwen aan een succesvol datakwaliteitsprogramma – DATAVERSITY

Datum:

Het creëren van een succesvol Data Quality-programma is essentieel voor elke organisatie die haar data wil gebruiken voor het verbeteren van de efficiëntie en betere besluitvorming. Gegevens van slechte kwaliteit kunnen resulteren in beslissingen die het bedrijf schaden. Het bouwen van een succesvol Data Quality-programma helpt ervoor te zorgen dat de gegevens van de hoogste kwaliteit zijn, waardoor deze zowel nuttig als winstgevend zijn. Als de gegevens niet kunnen worden vertrouwd, kunnen de beslissingen die worden genomen tijdens het gebruik van die gegevens ook niet worden vertrouwd.

De impact van een lage of slechte gegevenskwaliteit kan leiden tot aanzienlijke schade voor een bedrijf. Een effectief Data Quality-programma helpt ervoor te zorgen dat de gegevens van de organisatie accuraat en nuttig zijn. Het ontwikkelen van een succesvol programma vereist dat de datasteward het huidige niveau van datakwaliteit van het bedrijf beoordeelt, functionele strategieën implementeert en een systeem van best practices ontwikkelt. Datastewards zijn noodzakelijk voor het beheer en de organisatie van het Data Quality-programma van een bedrijf.

In zijn artikel Gegevenskwaliteit is een zaak van iedereen — Informatiekwaliteit beheren, Tom Breur, vice-president van geavanceerde analyses bij Health Advances, maakte deze observatie: 

“Met data stewards en kwaliteitscontrole ondersteund door een Data Quality scorecard, hebben we een interessant fenomeen waargenomen. Zonder aanvullende maatregelen, alleen maar door de aandacht te vestigen op het belang van datakwaliteit en door constante feedback over foutenpercentages, bleef de nauwkeurigheid stijgen naar niveaus die voorheen onmogelijk werden geacht.”

Een monster van een Scorekaart voor gegevenskwaliteit dat kan worden aangepast aan de doeleinden van de organisatie, wordt aangeboden door ABX MEDIA.

Menselijke fouten spelen een belangrijke rol bij het vervormen van gegevens en het produceren van gegevens van slechte kwaliteit. De implementatie en het gebruik van geautomatiseerde softwarediensten kunnen deze fouten echter aanzienlijk verminderen. Waar mogelijk moeten geautomatiseerde diensten worden geïmplementeerd. Een van de grootste problemen met de gegevenskwaliteit in elk bedrijf zijn menselijke fouten.

Think Alexander Wurm, senior analist bij Nucleus Research, 

“Overal waar menselijke aanrakingspunten zijn, zie je het grootste risico. Daarom kan het automatiseren van processen zoals onboarding en offboarding waarde hebben, zowel bij verbeterde gegevensbeveiliging als bij het verkrijgen van nieuwe procesefficiëntie of tijdbesparing.”

Het belang van de datasteward in een datakwaliteitsprogramma

De data steward is verantwoordelijk voor de kwaliteit van de data: de nauwkeurigheid, consistentie en opmaak van de data. De datasteward is ook verantwoordelijk voor het beheer van het Data Governance-beleid, het toezicht op de naleving en het omgaan met datagerelateerde uitdagingen.

Steeds meer ondernemers en managers beseffen de noodzaak hiervan gegevensbeheer, vooral naarmate hun bedrijf groeit. Bijkomende verantwoordelijkheden van een datasteward kunnen omvatten, maar zijn niet beperkt tot:

  • Gegevensopslag
  • Ervoor zorgen dat de nieuwe gegevens geen bestaande, tegenstrijdige gegevens overlappen
  • Ervoor zorgen dat de gegevens foutloos zijn
  • Op zoek gaan naar mogelijke fouten in de datastructuur
  • Het goedkeuren van de consistentie van gegevens

Door de gegevens te monitoren (of door de software in de gaten te houden die de gegevens bewaakt), kan een datasteward gegevensgerelateerde problemen identificeren en aanpakken, passende privacy- en beveiligingsnormen handhaven en gegevensgestuurde besluitvorming bevorderen.

De werklast van datastewards varieert, afhankelijk van de grootte van de organisatie en de behoeften op het gebied van databeheer. Een kleine organisatie, met minimale behoeften op het gebied van gegevensbeheer, kan een huidig ​​personeelslid aanwijzen en opleiden tot parttime datasteward. In een grotere organisatie kunnen enkele datastewards nodig zijn om met technische gegevens, beveiligingsgegevens, enz. om te gaan. Bovendien kan een grote, complexe organisatie besluiten om een ​​datasteward-‘manager’ toe te voegen die toezicht houdt op meerdere datastewards (en mogelijk de databeheersystemen). leidingbeheerder).

Het is belangrijk dat de datasteward een goed inzicht heeft in de algemene doelstellingen van het bedrijf.

De filosofie van "Als het niet kapot is, repareer het dan niet!" mag niet worden toegepast op moderne datagestuurde bedrijven. Moderne bedrijven bevinden zich in een constante staat van evolutie, met als doel de concurrentie te verslaan. Als gevolg hiervan moeten datastewards regelmatig een evaluatie van hun praktijken en tools plannen om ervoor te zorgen dat de normen voor de datakwaliteit blijven evolueren.

Gegevens hebben waarde – zolang ze accuraat en consistent zijn. 

De belangrijkste kenmerken van datakwaliteit

Door de kwaliteit van de gegevens te beoordelen, door de nauwkeurigheid, volledigheid en consistentie ervan te meten (het adres van een klant is hetzelfde bij zowel facturering als verkoop), kan de datasteward helpen om redelijk betrouwbare gegevens te garanderen. 

Gegevens van hoge datakwaliteit bieden informatie die betrouwbaar en bruikbaar is. Het bieden van een goede datakwaliteit vereist het identificeren en corrigeren van fouten, het verwijderen van duplicaten (bij voorkeur door te vertrouwen op stamgegevens), en de gegevens correct formatteren.

Het beoordelen van de gegevenskwaliteit omvat vaak het vaststellen van een standaard aanvaardbare gegevenskwaliteit, met behulp van gegevensprofilering en analysetechnieken, en met behulp van statistische methoden om eventuele problemen met de gegevenskwaliteit te identificeren en te corrigeren. De belangrijkste kenmerken (vaak “dimensies” genoemd) die moeten worden onderzocht en gemeten zijn:

  • Volledigheid: Gegevens mogen niet ontbreken of onvolledige waarden hebben. (Er kan een volledigheidsbeoordeling worden gebruikt om ervoor te zorgen dat er geen essentiële informatie ontbreekt.)
  • uniciteit: Zoek en verwijder kopieën om ervoor te zorgen dat de informatie in de gegevensbestanden van de organisatie vrij is van duplicatie.
  • geldigheid: Dit verwijst naar hoe nuttig de gegevens zijn en hoe goed de gegevens voldoen aan de normen van de organisatie. (Het opslaan van nutteloze gegevens is een verspilling van middelen en kan het onderzoek verwarren en beschadigen.)
  • Tijdigheid: Oude informatie die vaak niet meer waar of nauwkeurig is, moet worden verwijderd. Gegevens kunnen worden gemeten op basis van de relevantie en actualiteit ervan. Verouderde gegevens moeten worden verwijderd om geen verwarring te veroorzaken.
  • Nauwkeurigheid: Dit is de nauwkeurigheid van gegevens en hoe nauwkeurig deze de informatie uit de echte wereld weergeven.
  • Consistentie: Wanneer gegevens worden gekopieerd, moet de informatie consistent en nauwkeurig zijn. De behoefte aan één enkele bron van nauwkeurige interne gegevens vormt een goed argument voor het gebruik van masterdata zijn beste praktijken. (Een consistentiebeoordeling zorgt ervoor dat er geen tegenstrijdigheden of informatieconflicten zijn.)

Data-afstamming en datacatalogisering gebruiken om de datakwaliteit te verbeteren

Het gebruik van data-afstamming en datacatalogisering om de datakwaliteit te verbeteren zijn vrij recente innovaties. Steeds meer organisaties erkennen het belang van het gebruik van datacatalogisering en -afstamming om de datakwaliteit te verbeteren en te behouden. 

Gegevenscatalogi kan worden gebruikt om een ​​geschiedenis weer te geven die terugleidt naar de bron, en datastewards kunnen de datalijn het bewaken en onderhouden van de datakwaliteit.

Het beoordelingsproces

Het beoordelen van de gegevenskwaliteit van de organisatie helpt bij het identificeren van hiaten, het verbeteren van gegevensbeheer en het nemen van beslissingen die zijn gebaseerd op betrouwbare gegevens van hoge kwaliteit. Over het algemeen vergt het uitvoeren van een ‘handmatige’ datakwaliteitsbeoordeling zoveel inspanning dat de meerderheid van de managers dit nooit zou goedkeuren. 

Het beoordelingsproces bestaat uit verschillende stappen:

  • Het beoordelen van de algemene bedrijfsdoelstellingen van de organisatie is altijd een goede eerste stap voordat er organisatorische verbeteringen worden gepland en doorgevoerd.
  • De tweede stap omvat het identificeren van specifieke gebieden waar verbeteringen in de gegevenskwaliteit het succes van het bedrijf zullen bevorderen. Bedenk welke belangrijke kenmerken (nauwkeurigheid, volledigheid, validiteit, consistentie, uniciteit en tijdigheid) verbeterd moeten worden om de grootste impact te hebben op de bedrijfsprocessen en besluitvorming.
  • Ontwikkel een meetsysteem. Bij het beoordelen van het uniciteitskenmerk kan bijvoorbeeld het aantal bestanden met dezelfde titel worden gelokaliseerd en geteld. (Ik heb verschillende “oude” cv’s, en de huidige bijgewerkte, allemaal met dezelfde titel, opgeslagen op verschillende plaatsen op mijn laptop. Ze nemen wat opslagruimte in beslag, maar wat nog belangrijker is, ze veroorzaken vaak wat verwarring voordat ze de bijgewerkte één aan een potentiële klant. Dit kwalificeert als slecht beheer van de gegevenskwaliteit.) Door 20 tot 50 verschillende bestandstitels te onderzoeken op kopieën, kan een statistische schatting van de uniciteit worden gemaakt. Als 50% van de titels meerdere exemplaren heeft, zou uniciteit een probleem moeten zijn. Als slechts twee van de titels één exemplaar hebben, zou uniciteit statistisch gezien geen hoge prioriteit moeten hebben.
  • Beoordeel de gegevens met behulp van belangrijke functies om problemen met de gegevenskwaliteit te identificeren. 
  • Na onderzoek van de gegevens kan de datasteward beginnen met het verwijderen van onnodige of onnauwkeurige gegevens (data-opschoning), en procedures vaststellen, gebaseerd op beste praktijken, die de opslag en het gebruik van gegevens van hoge kwaliteit zullen bevorderen. 

Best practices voor een succesvol datakwaliteitsprogramma

Historisch gezien werd het ontwikkelen van datakwaliteit behandeld als een onderhouds- en reparatieprobleem: een proces waarbij problemen worden gedetecteerd nadat de gegevens al in de databases van de organisatie zijn opgeslagen. Er kan echter een Data Quality-programma worden ontworpen om dataproblemen proactief aan te pakken terwijl de data door de organisatie stromen. 

Hieronder vindt u enkele best practices voor het handhaven van de gegevenskwaliteit: 

  • Onderzoek en beoordeel de veelgebruikte externe gegevensbronnen van de organisatie op beperkingen of opmaakproblemen.
  • Houd de focus op de bedrijfsstrategie. 
  • Erken dat het toepassen van Data Quality een praktijk is zonder einddatum.
  • Maak waar mogelijk gebruik van automatisering om menselijke fouten te minimaliseren en werktaken te voltooien.
  • Ontwikkel een gestandaardiseerd vocabulaire voor gegevensverwerking voor goede communicatie.
  • De datasteward moet de verantwoordelijkheden voor ander personeel bij het handhaven van de datakwaliteit identificeren en vaststellen.
  • De datasteward moet het personeel en het management opleiden en op de hoogte houden.
  • Zorg voor updates (wekelijkse rapporten, schakel vervolgens over naar maandelijkse rapporten).
  • Implementeer een regelmatig gepland programma voor het opschonen van gegevens (software kan worden gebruikt).
  • Implementeer regelmatig datakwaliteitsbeoordelingen (misschien elke zes maanden).

Afbeelding gebruikt onder licentie van Shutterstock

spot_img

Laatste intelligentie

spot_img