Zephyrnet-logo

Waarneembaarheid van gegevens versus monitoring versus testen

Datum:

Bedrijven geven veel geld uit aan data- en analysemogelijkheden en creëren steeds meer dataproducten voor mensen binnen en buiten het bedrijf. Deze producten zijn afhankelijk van een wirwar van gegevenspijplijnen, elk een choreografie van software-uitvoeringen die gegevens van de ene plaats naar de andere transporteren. Naarmate deze pijplijnen complexer worden, is het belangrijk om tools en werkwijzen te hebben om wijzigingen te ontwikkelen en te debuggen en problemen te verminderen voordat ze downstream-effecten veroorzaken. Waarneembaarheid van gegevens, monitoring en testen zijn allemaal manieren om pijplijnen te verbeteren, maar ze zijn niet hetzelfde.

Als je niet zeker weet hoe deze drie concepten zich tot elkaar verhouden, lees dan verder. Dit artikel legt de waarneembaarheid, monitoring en testen van gegevens uit en vergelijkt deze door voor elk van hen de volgende vragen te beantwoorden:

  • Wat is het?
  • Waarom is het nodig?
  • Welke tools bieden het?

Waarneembaarheid van gegevens

Eerst leer je over de waarneembaarheid van gegevens en waarom dit nodig is.

Wat is gegevenswaarneembaarheid?

Waarneembaarheid van gegevens is een meer complete, holistische benadering van gegevenskwaliteit en is vaak een progressie in de volwassenheid van gegevenspijplijnen

De waarneembaarheid van gegevens gaat verder dan de traditionele monitoringmogelijkheden en streeft ernaar de tijd dat gegevens onbetrouwbaar zijn te verminderen door intelligente tools te gebruiken die verschillende gegevensstatistieken bewaken en helpen bij het oplossen en onderzoeken van problemen met de gegevenskwaliteit om de gemiddelde tijd om te detecteren (MTTD) en de gemiddelde tijd om op te lossen te verminderen (MTTR) deze kwesties.

Tools voor gegevensobservatie worden geleverd met specifieke soorten intelligentie in de vorm van ML-gestuurde anomaliedetectiemodellen die automatisch problemen detecteren. 

In tegenstelling tot het testen en monitoren van gegevens, waarbij bekende problemen worden gecontroleerd, kan de waarneembaarheid van gegevens gegevenspatronen observeren en problemen opsporen zonder vooropgezette regels en beleidsregels. 

Bovendien kan de waarneembaarheid van gegevens veranderingen in patronen en gegevenswaarden volgen en dat gebruiken als intelligentie om toekomstig gedrag in gegevens te voorspellen. Het bedient die voorspellingen vaak in de vorm van de metrische drempel. Op basis van waargenomen waarden voor het aantal rijen zal de tool bijvoorbeeld een potentieel bereik voorspellen, en in gevallen waarin gegevens buiten dat bereik vallen, creëert en verzendt de waarneembaarheid van gegevens een waarschuwing. 

Moderne hulpmiddelen voor gegevensobservatie kunnen diep worden geïntegreerd met uw gegevensstapel om een ​​diep begrip van te bieden data kwaliteit en de betrouwbaarheid van uw pijplijn bij elke stap en werkt als een controlevlak voor uw datapijplijnen. Deze mogelijkheid is niet beschikbaar bij het testen van pure gegevens of het bewaken van gegevens.  

Waarom heb je gegevenswaarneming nodig?

Gegevensproducten, analytische rapporten en op ML gebaseerde algoritmen zijn vaak afhankelijk van input van meerdere bronsystemen en workflows voor gegevenstransformatie. Als er een verandert of niet goed werkt, kan het alle downstream-afhankelijkheden doorbreken.

Het wijzigen van een datapijplijn kan aanvoelen als omgaan met een Jenga-toren. Verander een enkel stuk en het hele ding kan instorten.

Gegevensobservatie helpt gegevenseigenaren om onverwachte problemen in de gegevenspijplijnen die stroomafwaartse gegevensproducten en -toepassingen in zowel ontwikkelings- als productieomgevingen voeden, te begrijpen en op te lossen. Het gebruik van gegevenswaarneming voorkomt dat onbetrouwbare gegevens door de pijplijn stromen.

Stel dat interacties met uw app worden opgeslagen als semi-gestructureerde logboeken in een NoSQL database zoals MongoDB; gegevens worden geëxtraheerd via Apache Beam en geland in Amazon S3-opslag. Vervolgens bevraagt ​​een opgeslagen procedure in Snowflake deze logboeken en laadt ze in een tabelformaat in een ensceneringsschema. Tot slot verwerkt dbt de data en voegt deze toe aan het datamodel in het productieschema. Apache Airflow orkestreert het hele proces.

Aangezien zes systemen de gegevens achtereenvolgens verwerken, kan de waarneembaarheid van gegevens elk afzonderlijk en de stroom als geheel bewaken. De stroom kan worden geprogrammeerd om gegevenskwaliteitssignalen en waarschuwingen van de tool voor gegevensobservatie te gebruiken om een ​​ticket te openen, slechte gegevens te labelen voor toekomstig herstel of om de pijplijn helemaal te stoppen.

Tools voor gegevenswaarneming

Het is mogelijk om uw eigen platform voor gegevensobservatie te bouwen. Dit betekent echter niet alleen het implementeren van datavalidatietests, maar ook het toevoegen van trending, continue monitoring en analyse van datakwaliteitsresultaten, het creëren van een visualisatielaag bovenop en het implementeren van ML-mogelijkheden voor anomaliedetectie.

Als dat veel werk lijkt, is dat het ook. Daarom bieden leveranciers de meeste van deze mogelijkheden kant-en-klaar aan. Er is echter nogal wat verschil tussen deze tools. Sommige kunnen alleen analytische en op SQL gebaseerde bronnen observeren, andere wel gecentraliseerde gegevensobservatie met de mogelijkheid om de gegevens van alle systemen en bronnen in een gegevenspijplijn te bewaken, ongeacht de structuur ervan. Bovendien kan de manier waarop gegevenskwaliteitsstatistieken worden berekend extra verwerkingskosten met zich meebrengen voor uw clouddatawarehouse en opslagsystemen. Maak onderscheid tussen de platforms die geen rekenkracht naar uw databases doordrukken en de platforms die dat wel doen, en denk na over uw TCO. 

Data Monitoring

Vaak wordt datamonitoring in dezelfde zin gebruikt als dataobservability. Er zijn echter verschillen tussen de twee.

Wat is gegevensbewaking?

Datamonitoring gaat een stap verder dan datatesten en wordt vaak geïmplementeerd wanneer datatesten hebben plaatsgevonden bij het bouwen van nieuwe datapijplijnen of het aanbrengen van wijzigingen in de pijplijn. Nadat gegevenstests zijn ingevoerd om uw gegevens op de juiste punten te testen, heeft u een monitoringsysteem nodig om door te gaan. 

Gegevensmonitoring is een praktijk waarbij gegevens voortdurend worden gecontroleerd op vooraf gedefinieerde gegevensstatistieken tegen acceptabele drempels om te waarschuwen voor problemen. Een goede gegevensbewaking moet uitgaan van waarneembaarheid, het identificeren van gegevenspatronen en anomalieën die geen bekende problemen zijn, en van daaruit definiëren en opzetten wat er moet worden gemeten en gecontroleerd. Datamonitoring zonder waarneembaarheid toont alleen oppervlakkige problemen aan; de waarneembaarheid van gegevens biedt een dieper inzicht in lopende problemen.

Je zou monitoring holistisch kunnen noemen omdat het een stap verder gaat dan het testen van gegevens, en het vergelijken van statistieken in de loop van de tijd levert patronen en inzichten op die je niet zou krijgen met een enkele gegevenstest. 

Waarom heb je datamonitoring nodig?

Als het duidelijk is wat u moet bijhouden, is datamonitoring de juiste keuze. Als u een specifiek gegevensartefact bewaakt en precies weet hoe die gegevens zich in de loop van de tijd zullen gedragen, kunt u regels instellen om het te bewaken en waarschuwingen instellen om meldingen te ontvangen.

Welke tools bieden gegevensbewaking?

Het is vaak moeilijk om dit soort tools op zichzelf te vinden, deels omdat sommige tools voor gegevensbewaking zich hebben verplaatst van platforms voor gegevenswaarneming zonder de volledige functionaliteit van gegevenswaarneming te hebben en deels omdat gegevensbewaking technisch gezien een subset is van gegevenswaarneming.

Voor een eenvoudige oplossing kan het instellen van gegevensbewaking net zo snel gaan als het invoeren van een Plotly-grafiek met een metriek, met voorwaardelijke opmaak die verandert wanneer een drempel wordt bereikt. Of u kunt gebruiken regels voor gegevensvalidatie op een doorlopende basis en bouw geleidelijk een basislijn op voor het automatisch detecteren van uitschieters en afwijkingen, wat leidt tot uw gegevensobservatiepraktijk.

Gegevens testen

Terwijl de eerste twee concepten je helpen de datakwaliteit te meten, helpt dit concept je om het te bevestigen.

Wat is datatesten?

Gegevenstests of "gegevenskwaliteitstests" valideren uw kennis over aannames die waar moeten zijn om gegevens te verwerken zoals gepland. We kunnen tests opsplitsen in twee categorieën:

  1. Het uiterlijk van de gegevens: gegevenstype, nullen, formaat, enz.
  2. Bedrijfsregels: unieke e-mailadressen, leeftijd van de klant, etc.

Foutieve gegevens vereisen specifieke acties, waaronder het markeren, op een andere manier verwerken, opslaan voor latere verwerking of het activeren van een melding waarin om handmatige tussenkomst wordt gevraagd.

Er zijn veel dimensies van datakwaliteit waarop u kunt testen, waaronder het volgende:

  • Geldigheid van gegevens: Om datums of tijden op te slaan, moeten ze de juiste indeling hebben. Een tekenreeks "MM/DD/JJ" kan verkeerd worden geïnterpreteerd als "JJJJ-MM-DD" wordt verwacht. Andere veelgebruikte tests controleren op NULL's en gegevenstypen.
  • Uniekheid van gegevens: Geen twee rijen in een tabel mogen hetzelfde zijn.
  • Volledigheid van gegevens: Het verplaatsen van gegevens zonder filteren of transformeren zou moeten resulteren in hetzelfde aantal rijen in de bestemming als in de bron.
  • Data consistentie: Als gegevens op meerdere plaatsen niet identiek zijn terwijl ze zouden moeten zijn, zijn ze niet consistent. Als er bijvoorbeeld een klantprofiel bestaat in het e-commerceplatform en het CRM, moet het adres op beide plaatsen hetzelfde zijn.

Waarom heeft u gegevenstesten nodig?

Of u nu het web afstruint, sensoren gebruikt of gebruikersinvoer verzamelt uit open tekstvelden, er zijn veel manieren waarop gegevens beschadigd kunnen raken. Dit kan onder andere bedrijfskritische modellen verstoren of belangrijke rapporten vertekenen. Een cruciaal onderdeel van het bouwen van een gegevenspijplijn die zakelijke toepassingen, analyses of zelfs gegevensproducten voedt, is het testen van die gegevens op nauwkeurigheid, validiteit en actualiteit.

Welke tools bieden gegevenstesten?

Ten eerste kunnen datatests eenvoudig worden geschreven met vanilla Python. Voorwaardelijke stellingen of beweringen kunnen voldoende zijn voor eenvoudige pijplijnen. Voor grote projecten moet u uw tests echter beheersbaar houden.

Daarom bieden de meeste observatieplatforms een raamwerk om gegevenstests uit te voeren.

Conclusie

Waarneembaarheid van gegevens, gegevensbewaking en gegevenstesten kunnen afzonderlijke concepten zijn, maar zoals u in dit artikel hebt gezien, zijn ze met elkaar verweven.

Waarneembaarheid van gegevens, een relatief nieuwe praktijk binnen de gegevenswereld, is een reeks maatregelen die kunnen helpen bij het voorspellen en identificeren van gegevensproblemen door middel van externe symptomen. Door de uitvoer en gegevensartefacten van gegevenspijplijnen in relatie tot elkaar te verwerken, kan het afwijkingen detecteren en aangeven wat de oorzaak is.

Gegevensbewaking, een subset van waarneembaarheid, is een praktijk waarbij gegevens voortdurend worden gecontroleerd op vooraf gedefinieerde gegevensstatistieken tegen aanvaardbare drempels. Het bevestigt alleen dat er een anomalie is.

Gegevenstests meten formaten zoals nulcontroles of validaties zoals bedrijfsregels om uw gegevens te matchen met een gespecificeerde lijst met aannames. Elke test heeft een beperkte reikwijdte en staat los van de andere tests.

In een ideale wereld zou u alle drie kunnen ontwikkelen om elk mogelijk gegevensprobleem op te sporen, maar de middelen van uw organisatie zijn niet eindeloos. Door de juiste tool te gebruiken voor precies wat u nodig heeft, kunt u gegevens van hoge kwaliteit behouden terwijl u uw middelen en inspanningen gericht houdt.

spot_img

Laatste intelligentie

spot_img