Zephyrnet-logo

Wat is gegevensbetrouwbaarheid en waarom heb je dat nodig? – DATAVERSITEIT

Datum:

fizkes/Shutterstock

"Kan ik deze gegevens vertrouwen?"

In het aanbrekende tijdperk van kunstmatige intelligentie (AI) wordt deze vraag steeds belangrijker voor individuen en organisaties. Betrouwbaarheid van gegevens is de hoeksteen van een organisatie datagedreven besluitvorming decision. Uit een recent onderzoek van Precies identificeerde datagestuurde besluitvorming als het primaire doel van 77% van de data-initiatieven, maar volgens het onderzoek heeft slechts 46% van de organisaties veel of zeer veel vertrouwen in de data die hun beslissingen ondersteunen.

Een rapport van de World Economic Forum benadrukt het belang van de betrouwbaarheid van gegevens bij het realiseren van het potentieel van AI. Terwijl 90% van de publieke en private CEO's gelooft dat AI essentieel is om de klimaatverandering tegen te gaan, heeft 75% van de leidinggevenden geen hoog vertrouwen in de betrouwbaarheid van de gegevens die hun cruciale dataprojecten aandrijven. Het garanderen van het succes van toekomstige datagestuurde initiatieven begint met betrouwbare data, en bewijzen dat data betrouwbaar zijn begint met het definiëren ervan wat databetrouwbaarheid isen bepalen hoe dit te bereiken.

Wat is gegevensbetrouwbaarheid?

Betrouwbaarheid van gegevens is de bepaling dat de gegevens accuraat, volledig, consistent en vrij van fouten zijn. Het garanderen van de betrouwbaarheid van gegevens is een onderdeel van de bedrijfsvoering van een organisatie inspanningen op het gebied van gegevensintegriteit, die verder reiken dan de gegevens zelf, maar ook de infrastructuur en processen die verband houden met de gegevens:

  • Fysieke integriteit regelt de procedures voor het veilig opslaan en ophalen van gegevens uit IT-systemen. Het beschermt tegen storingen en andere externe bedreigingen voor de betrouwbaarheid van gegevens.
  • Logische integriteit bevestigt dat de gegevens in verschillende contexten zinvol zijn. De logica van gegevens kan worden aangetast door menselijke fouten of gebreken in het systeemontwerp. Logische integriteit kent vier aspecten:
    • Domein integriteit heeft betrekking op het acceptabele bereik van waarden, zoals gehele getallen, tekst of datum.
    • Entiteit integriteit voorkomt duplicatie door primaire sleutels toe te passen die records in een relationele databasetabel op unieke wijze identificeren.
    • Referentiële integriteit implementeert regels en procedures die de consistentie tussen twee databasetabellen behouden.
    • Door de gebruiker gedefinieerde integriteit probeert fouten te identificeren die bij de andere integriteitscontroles over het hoofd worden gezien door de eigen interne regels en beperkingen van de organisatie op de gegevens toe te passen.

Betrouwbaarheid van data dient als de eerste stap in het creëren van robuuste datagestuurde besluitvormingsprocessen. De kwaliteit van beslissingen wordt beïnvloed door de onvolledigheid van de gegevens, onnauwkeurigheden in de gegevens en vertekeningen die worden geïntroduceerd door het gebrek aan standaardisatie van gegevensformaten, inconsistente gegevensdefinities en onjuiste methoden voor gegevensverzameling. Door vertrouwen te hebben in de betrouwbaarheid van uw gegevens kunnen besluitvormers de informatie verzamelen die ze nodig hebben en snel reageren op veranderende sector- en marktomstandigheden.

Waarom is de betrouwbaarheid van gegevens belangrijk?

Eén manier om het belang van de betrouwbaarheid van gegevens te meten, is door te kijken naar de kenmerken van onbetrouwbare gegevens:

  • onnauwkeurig gegevens zijn ronduit verkeerd en misleidend.
  • Achterhaald gegevens zijn niet langer accuraat en even misleidend.
  • Onvolledig gegevens missen waarden of missen specifieke kenmerken, zoals een klantrecord zonder contactgegevens.
  • duplicaat Gegevens kunnen analyses vertekenen en middelen verspillen.
  • inconsequent gegevens bestaan ​​in verschillende vormen of formaten binnen de organisatie.
  • Irrelevant gegevens voegen geen waarde toe in de context van de huidige analyse.
  • Ongestructureerd gegevens missen een context die het mogelijk maakt deze nauwkeurig te analyseren, zoals platte tekst versus tekst in een gedefinieerd databaseveld.
  • Niet-conform gegevens veroorzaken problemen voor gereguleerde sectoren zoals de gezondheidszorg en de financiële sector en kunnen leiden tot juridische en financiële boetes.

Omgekeerd verbeteren betrouwbare gegevens de kwaliteit van zakelijke beslissingen, dragen ze bij aan de operationele efficiëntie van het bedrijf, verhogen ze de klanttevredenheid, maken ze het financieel beheer nauwkeuriger en vergemakkelijken ze de naleving van de regelgeving. Andere voordelen van databetrouwbaarheid voor een organisatie zijn effectievere marketing, lagere bedrijfskosten, nauwkeurigere prognoses, verbeterde schaalbaarheid en betekenisvollere en nuttiger data-integraties.

Het belangrijkste voordeel dat bedrijven halen uit een grotere betrouwbaarheid van gegevens kan het vertrouwen zijn dat ze opbouwen bij werknemers, partners en klanten. Als vertrouwen de basis is van zakelijke relaties, is de betrouwbaarheid van data de weg naar het aangaan van sterke, langdurige banden en positieve interacties met partijen en belanghebbenden binnen en buiten het bedrijf. 

Hoe de betrouwbaarheid van gegevens te meten

De eerste stap erin het meten van de betrouwbaarheid van gegevens is het bepalen van de meest geschikte maatstaven voor de specifiek type gegevens en toepassing, of ‘dimensie’. Sommige maatstaven voor de betrouwbaarheid van gegevens zijn intrinsiek of onafhankelijk van een bepaald gebruiksscenario, zoals het totale aantal codeerfouten in een database. Andere zijn extrinsiek, wat betekent dat ze rechtstreeks verband houden met een specifieke taak of context, zoals de gemiddelde laadtijd van een webpagina.

Intrinsieke statistieken omvatten gegevensnauwkeurigheid, volledigheid, consistentie, frisheid en privacy en veiligheid:

  • Nauwkeurigheid wordt gemeten aan de hand van hoe goed de gegevens de werkelijke situatie waarop ze betrekking hebben, beschrijven of representeren. Dit houdt onder meer in of de gegevens de kenmerken bezitten die in het datamodel worden beschreven, en of de voorspellingen van het model over gebeurtenissen en omstandigheden waar blijken te zijn.
  • Volledigheid heeft zowel betrekking op de data zelf als op de datamodellen die op basis van die data zijn gemaakt. De volledigheid wordt gemeten door nulwaarden of gegevenselementen in de database te identificeren, en velden waarin gegevens volledig ontbreken.
  • Consistentie verwijdert gegevensredundanties en inconsistenties in waarden die aggregaties van elkaar zijn. Een voorbeeld is een database waarin de productmodelnummers die door de verkoopafdeling worden gebruikt, niet overeenkomen met de modelnummers die door het productieteam worden gebruikt.
  • Versheid definieert de actualiteit van de gegevens op het huidige moment, die gerelateerd is aan, maar niet synoniem is met tijdigheid van gegevens, of de relevantie van de gegevens wanneer ze op een specifieke taak worden toegepast. Het kan bijvoorbeeld voorkomen dat verkoopcijfers niet worden gepubliceerd vanwege een verouderde lijst met verkopers. De verkoopgegevens zijn accuraat en geschikt voor analyse, maar zijn niet actueel.

Extrinsieke statistieken omvatten relevantiebetrouwbaarheid, tijdigheid, bruikbaarheid en geldigheid:

  • Relevantie zorgt ervoor dat de gegevens het noodzakelijke inzicht bieden voor de taak en voldoende zijn om aan alle beoogde gebruiksscenario's te voldoen. Irrelevantie kan worden veroorzaakt door overtolligheid, verouderd zijn of onvolledig zijn.
  • Betrouwbaarheid verwijst naar de mate waarin belanghebbenden de gegevens als betrouwbaar beschouwen. Om gegevens als waar en geloofwaardig te beschouwen, moeten ze verifieerbaar zijn wat betreft de bron, de kwaliteit ervan en eventuele vooroordelen.
  • Tijdigheid bevestigt dat de gegevens actueel zijn en beschikbaar zijn voor gebruik voor de beoogde doeleinden. Actuele informatie die nooit bij de besluitvormers terechtkomt die deze nodig hebben, is net zo nutteloos als verouderde informatie die hen meteen bereikt.
  • Usability bepaalt hoe gemakkelijk de gegevens toegankelijk en begrijpelijk zijn voor de gegevensconsumenten van de organisatie. De gegevens moeten duidelijk en ondubbelzinnig zijn en toegankelijk zijn met behulp van variaties in aanvraagformulieren, bewoordingen en benaderingen.
  • Geldigheid verifieert dat de gegevens voldoen aan de interne regels en gegevensdefinities van het bedrijf. Verschillende afdelingen moeten het eens worden over specifieke methoden voor het creëren, beschrijven en onderhouden van gegevens om consistente en efficiënte bedrijfsprocessen te bevorderen.

Hoe u de betrouwbaarheid van gegevens kunt verbeteren: voorbeelden en uitdagingen

Het verbeteren van de betrouwbaarheid van de gegevens van uw bedrijf begint met het identificeren van de belangrijkste gebruiksscenario's, zoals verkoopprognoses, personeelsplanning of het bedenken van effectieve marketingstrategieën. Hierdoor kunt u zich concentreren op de gegevens die de grootste organisatiebrede impact hebben en een gemeenschappelijke basis bieden voor alle belanghebbenden. Het belicht ook de gebieden en toepassingen die de grootste behoefte hebben aan betrouwbaardere gegevens.

Door best practices toe te passen voor het bevorderen van de betrouwbaarheid van gegevens realiseren organisaties voordelen over de hele wereld volledige gegevensstapel: van databronnen en extractie- en laadtools, tot clouddatawarehouses en transformatietools.

  • Houd u aan de normen voor gegevensverzameling. Dit vermindert de variatie in gegevens en bevordert de consistentie binnen het hele bedrijf.
  • Train gegevensverzamelaars om zich te concentreren op betrouwbaarheid. Stel hen tools en technieken ter beschikking die de kans op menselijke fouten verkleinen, en informeer hen over de kosten die gepaard gaan met het gebruik van onbetrouwbare data.
  • Voer regelmatig audits uit. Gegevensaudits identificeren fouten en inconsistenties in systemen en graven dieper om de oorzaken van de problemen te ontdekken en corrigerende maatregelen te bepalen.
  • Test de betrouwbaarheid van uw gereedschappen en instrumenten. Instrumenten voor gegevensverzameling zijn onder meer enquêtes, vragenlijsten en meetinstrumenten. Naast het testen van de tools, moet u het verzamelproces controleren op volledigheid, nauwkeurigheid en consistentie van de gegevens.
  • Maak de gegevens schoon. Zoek en verwijder eventuele uitschieters in de gegevens. Identificeer ontbrekende en inconsistente waarden en implementeer standaardmethoden om de volledigheid en consistentie van gegevens te bereiken.
  • Maak een datawoordenboek. Het woordenboek fungeert als de centrale opslagplaats voor gegevenstypen, gegevensrelaties en gegevensbetekenis. Hiermee kunt u de bron van de gegevens, het formaat ervan en hoe deze zijn gebruikt, volgen. Het dient ook als een gedeelde hulpbron voor alle belanghebbenden.
  • Zorg ervoor dat de gegevens reproduceerbaar zijn. Door uw gegevensverzamelingspraktijken zorgvuldig te documenteren, kunnen u en anderen uw resultaten reproduceren. De gebruikte methodologieën moeten duidelijk worden uitgelegd en alle versies van gegevens moeten nauwkeurig worden bijgehouden.
  • Pas Data Governance-beleid toe. Zorg ervoor dat de gegevensconsumenten in het bedrijf uw gegevensbeleid en -procedures met betrekking tot toegangscontroles, wijzigingen en updates van het wijzigingslogboek begrijpen.
  • Zorg ervoor dat er een back-up van uw gegevens wordt gemaakt en dat deze herstelbaar zijn. Bereid u voor op het potentiële verlies van kritieke gegevens door uw gegevensherstelprocessen regelmatig te testen.

Betrouwbaarheid van gegevens is essentieel voor het opbouwen van vertrouwen in AI

De grote belofte van generatieve kunstmatige intelligentie (GenAI) hangt af van bedrijven en consumenten hun wantrouwen jegens de technologie te overwinnen. De betrouwbaarheid van gegevens kan de variabiliteit en onnauwkeurigheden tegengaan die inherent zijn aan machine learning-systemen met grote taalmodellen (LLM). Door de principes van gegevensbetrouwbaarheid toe te passen op AI-modellering wordt de impliciete en expliciete vooringenomenheid van door AI gegenereerde inhoud aangepakt.

Voorbeelden van gegevensbetrouwbaarheid toegepast op GenAI-innovaties zijn onder meer verklaarbare AI (XAI) dat de transparantie en begrijpelijkheid van de systemen vergroot, en samenwerking tussen mens en AI, dat menselijke intuïtie en ervaring combineert met de rekenefficiëntie van AI. Ook zijn er ethische AI-frameworks in ontwikkeling die naast nauwkeurigheid en betrouwbaarheid streven naar eerlijkheid en gelijkheid.

Data zijn de brandstof die het moderne bedrijfsleven aandrijft, maar de waarde van die data neemt dramatisch af naarmate dataconsumenten het vertrouwen verliezen in de nauwkeurigheid, integriteit en betrouwbaarheid ervan. De beste manier om het rendement dat uw bedrijf realiseert op zijn investeringen in data te vergroten, is door tools en processen te implementeren die de waarde ervan veiligstellen en vergroten.

spot_img

Laatste intelligentie

spot_img