Zephyrnet-logotyp

Datakvalitetshantering 101

Datum:

Datakvalitetshantering

Data Quality Management är nödvändigt för att hantera den verkliga utmaningen med data av låg kvalitet. Data Quality Management kan stoppa slöseri med tid och energi som krävs för att hantera felaktiga data genom att manuellt bearbeta dem. Data av låg kvalitet kan dölja problem i verksamheten och göra regelefterlevnad till en utmaning.

bra Datakvalitetshantering är avgörande för att förstå data. Det hjälper till att skapa ett ramverk för organisationen och stöder regler för datakvalitet.

Tänker du på en karriär inom DATAHANTERING?

Lär dig om de viktigaste ansvarsområden du kommer att ha och de färdigheter och utbildningar du behöver med vårt onlineutbildningsprogram.

Exakta, uppdaterade data ger en tydlig bild av organisationens dagliga verksamhet. Dålig kvalitet kan främja misstag och fel, inklusive onödiga utgifter och förlorade fakturor. Korrekta data främjar förtroende för applikationsresultat och minskar onödiga kostnader.

Good Data Quality Management kommer att bygga en grund av användbar information som hjälper till att förstå organisationens utgifter och processer.

Data av dålig kvalitet registreras felaktigt i början, förvrängs under användning eller lagring eller har blivit inaktuell. Andra exempel på dålig datakvalitet inkluderar:

  • Ofullständig data
  • Inkonsekventa data
  • Duplicerad data
  • Dåligt definierade data
  • Dåligt organiserad data
  • dålig Datasäkerhet

Vad är datakvalitetshantering?

Datakvalitetshantering kan beskrivas som en grupp metoder som används för att upprätthålla och få tillgång till korrekt information. Varje steg i hanteringen av data måste inkludera ansträngningar för att stödja noggrannhet. Det börjar med att skaffa data, implementera det, distribuera det och analysera det, med målet att få högkvalitativ, felfri information.

Allt oftare använder företag data för att främja intelligent beslutsfattande i marknadsföringsfrågor, produktutveckling och kommunikationsstrategier. Data av hög kvalitet kan normalt bearbetas och analyseras snabbare än data av låg kvalitet. Data av hög kvalitet leder till snabbare och bättre insikter och stöd business intelligence samla och analytics.

Vad är verktyg för datakvalitet?

Ett bra datakvalitetssystem använder sig av verktyg som kan hjälpa till att förbättra en organisations datatillförlitlighet. Verktyg för datakvalitet är processerna och teknologierna för att identifiera, förstå och korrigera brister i data som stöder effektiv informationsstyrning över operativa affärsprocesser och beslutsfattande. De tillgängliga verktygen inkluderar en rad funktioner, såsom:

  • Datarensning: Används för att korrigera okända datatyper (omformatering), eliminera dubblerade poster och förbättra undermåliga datarepresentationer. Datarensning säkerställer följande av datastandardiseringsregler som behövs för att möjliggöra analys och insikter från datamängder. Datarensningsprocessen etablerar även hierarkier och gör data anpassningsbara för att passa en organisations unika datakrav.
  • Dataövervakning: En process som övervakar och säkerställer att en organisations datakvalitet utvecklas, används och underhålls inom en organisation. Detta verktyg använder normalt automatisering för att övervaka kvaliteten på data. Vanligtvis utvecklar en organisation sina egna nyckelprestandaindikatorer (KPI:er) och datakvalitetsmått. De dataövervakning process används för att mäta dessa mätvärden och utvärdera dem mot en konfigurerad datakvalitetsbaslinje. De flesta övervakningssystem för datakvalitet är utformade för att varna dataadministratörer när kvalitetströskelvärden inte uppfylls.
  • Dataprofilering: Processen med dataprofilering kan användas för att fastställa trender och hjälpa till att upptäcka inkonsekvenser i data. Denna process kombinerar övervakning och rensning av data. Dataprofilering används till:
    • Skapa datarelationer
    • Verifiera tillgängliga data mot beskrivningar
    • Jämför tillgängliga data med en standard statistisk baslinje
  • Dataanalys: Detta verktyg används för att upptäcka om data överensstämmer med igenkännbara mönster. Dataparsering baserat på mönster stöder automatisk igenkänning, såsom ett telefonnummers riktnummer eller delar av ett människonamn.
  • Datamatchning: Det minskar dataduplicering och kan förbättra datanoggrannheten. Den analyserar dupliceringen av data i alla poster som kommer från en enda datakälla och identifierar både exakta och ungefärliga matchningar. Processen gör att duplicerade data kan tas bort manuellt.
  • Datastandardisering: Omvandlingen av data från en mängd olika källor och olika format till ett enhetligt och konsekvent format. Det reparerar sådant som inkonsekvent versaler, akronymer, skiljetecken och värden som finns i fel fält. Datastandardisering hjälper till att säkerställa att lagrad data använder samma, konsekventa format.
  • Databerikning: Processen att komplettera saknade eller ofullständiga data.

Databerikning görs genom att kombinera data från en annan källa. Detta görs vanligtvis under datamigreringar, när kundinformation har blivit fragmenterad. Data som tas från ett system används för att komplettera data från ett annat.

Vad är datakvalitetsmått?

Datakvalitetsmått har blivit mycket viktiga för att mäta och bedöma kvaliteten på en organisations data. Använder sig av Datakvalitetsmått kräver en förståelse för data, hur den behandlas och sätten att mäta kvaliteten på data. I många fall används mätdatadimensioner, men även andra metoder listas. De olika typerna av mätvärden för datakvalitet är:

  • Datanoggrannhet: Ett mått på datas noggrannhet.
  • Förhållandet mellan data och fel: Håller en sammanställning av kända fel i en datamängd och jämför dem med storleken på datamängden.
  • Datafullständighet: Data är komplett när den uppfyller en organisations förväntningar. Den indikerar när det finns tillräckligt för att dra meningsfulla slutsatser.
  • Antal tomma värden: Detta är ett mått på hur många gånger ett tomt fält finns i en datamängd. Dessa tomma fält indikerar ofta information som har placerats i fel fält, eller saknas helt.
  • Datakonsistens: Kräver att datavärden hämtade från flera källor inte kommer i konflikt med varandra. Det bör noteras datakonsistens betyder inte nödvändigtvis att uppgifterna är korrekta.
  • Datatid till värde: Detta mäter tiden det tar att få användbara insikter från data.
  • Dataintegritet: Syftar på att testa data för att säkerställa dess överensstämmelse med en organisations dataprocedurer. Dataintegritet visar att det inte finns några oavsiktliga fel och använder lämpliga datatyper.
  • Datatransformationsfelfrekvens: Detta mäter hur ofta datatransformationsoperationer misslyckas.
  • aktualitet: Spårar när data inte är redo för användare när de behöver det.
  • Datalagringskostnader: När data lagras utan att de används kan uppgifterna betraktas som kvalitetsdata. Om datalagringskostnader minska, medan dataverksamheten förblir densamma eller växer, indikerar det att kvaliteten på data kan förbättras.

Vad är datakvalitetskontroll?

Datakvalitetskontroll handlar om att kontrollera hur data används. Processen utförs vanligtvis både "före och efter" datakvalitetssäkring (upptäckten av datainkonsekvens och deras korrigeringar).

Före processen för kvalitetssäkring av data begränsas indata och kontrolleras. Efter kvalitetssäkringsprocessen samlas statistik in från följande områden för att påverka kvalitetskontrollprocessen:

  • Noggrannhet
  • Ofullständighet
  • Inkonsekvensens svårighetsgrad
  • Precision
  • Saknas/Okänd

Information hämtas från kvalitetssäkringsprocessen, som används av datakvalitetskontrollprocessen för att bestämma vad som ska användas. Till exempel, om kvalitetskontrollprocessen upptäcker för många fel, kommer den att blockera användningen av data snarare än att tillåta ett avbrott.

Vad är datakvalitetsdimensioner?

Datakvalitetsdimensioner stödja sätt att mäta kvaliteten på den data som en organisation använder. Användning av flera dimensioner kan visa nivån på en organisations datakvalitet. De aggregerade poängen tagna från flera dimensioner ger en rimlig representation av datakvaliteten och föreslår datas lämplighet.

Datakvalitetsdimensioner mäter de dimensioner som är specifika för projektets behov.

Data kan definiera vad som anses vara en acceptabel nivå (eller poäng), vilket i sin tur bygger mer förtroende för data. Det finns sex dimensioner av datakvalitet som vanligtvis används:

  • Datafullständighet: Denna dimension kan användas för att täcka en mängd olika situationer. Kunddata kan till exempel visa den minsta mängd information som behövs för en produktiv kundinteraktion. Ett annat exempel skulle vara en beställningsblankett som saknar en leveransuppskattning, som inte skulle anses vara komplett. Fullständighet mäter om den data som visas är tillräcklig för att stödja en tillfredsställande interaktion eller transaktion.
  • Datanoggrannhet: När data presenterar en realistisk modell av den verkliga världen (eller delar av den) och förväntningar, kan uppgifterna anses vara korrekta. Ju närmare "sanningen" data är, desto större är datanoggrannheten. Ett korrekt telefonnummer betyder att en person är nåbar. Noggrannhet är särskilt avgörande för de mer reglerade branscherna, som finans och hälsovård. Att mäta data noggrannhet kräver att data verifieras med autentiska källor, såsom statliga födelseböcker, eller genom att kontakta personen eller organisationen i fråga.
  • Datakonsistens: Den här dimensionen fokuserar på om samma information som lagras i flera instanser är konsekvent. Den visas som andelen data med matchande information som lagras på olika platser. Datakonsistens säkerställer att analyser korrekt fångar och utnyttjar värdet av data.

Datakonsistens kan vara svår att bedöma, eftersom det kräver planerad forskning över flera datalagringsplatser.

  • Datavaliditet: Detta mätsystem avgör om de visade värdena uppfyller vissa informationskrav. Ett postnummer är till exempel giltigt om det innehåller rätt nummer för regionen. Använder sig av affärsregler tillhandahåller en metod för att bedöma datas giltighet.
  • Dataunik: Den används för att avgöra om en enskild post finns i lagringen, eller om det finns flera versioner av samma information. Flera kopior kan orsaka problem, eftersom vissa kopior kanske inte har fått uppdateringar eller helt enkelt är fel. Unikhet säkerställer att duplicering undviks.
  • Dataintegritet: När data färdas över olika system och omvandlas kan den bli förvrängd. Integritet indikerar att informationen och kärnattributen har bibehållits. Det säkerställer att data kan spåras tillbaka till sin ursprungliga källa.

Bilden används under licens från Shutterstock.com

plats_img

Senaste intelligens

VC Café

VC Café

plats_img