Zephyrnet-logo

Waarneembaarheid van gegevens: wat het is en waarom het ertoe doet - DATAVERSITEIT

Datum:

waarneembaarheid van gegevenswaarneembaarheid van gegevens

Als proces wordt gegevensobservatie gebruikt door bedrijven die met enorme hoeveelheden gegevens werken. Veel grote, moderne organisaties proberen hun gegevens te monitoren met behulp van een verscheidenheid aan applicaties en tools. Helaas ontwikkelen maar weinig bedrijven de zichtbaarheid die nodig is voor een realistisch overzicht. 

Dataobservability zorgt voor dat overzicht, om problemen met de datastroom zo snel mogelijk op te lossen.

Het waarneembaarheidsproces omvat een verscheidenheid aan methoden en technologieën die helpen bij het in realtime identificeren en oplossen van gegevensproblemen. Dit proces bouwt een multidimensionale kaart op van de volledige gegevensstroom van een bedrijf, waardoor dieper inzicht wordt verkregen in de prestaties en gegevenskwaliteit van het systeem. 

Toen hem werd gevraagd naar de waarneembaarheid van gegevens, merkte Ryan Yackel, CMO van Databand, een IBM-bedrijf op:

“Naarmate het volume, de snelheid en de complexiteit van big data-pijplijnen blijven groeien, vertrouwen bedrijven op data-engineering en platformteams als de ruggengraat van hun datagestuurde activiteiten. Het probleem is dat de meeste van deze teams hun werk te doen hebben. Ze bestrijden gegevens met betrouwbaarheids- en kwaliteitsincidenten, waardoor het moeilijk wordt om zich te concentreren op strategische initiatieven met betrekking tot AL/ML, analyse en gegevensproducten. Datawaarneembaarheid biedt uitkomst.”

In eerste instantie lijkt de waarneembaarheid van gegevens een vorm van datalijn, maar de twee processen dienen verschillende doelen. 

Dataobservability richt zich op het snel en efficiënt oplossen van problemen met de data door middel van een meetsysteem. Data lineage wordt echter voornamelijk gebruikt voor het verzamelen en opslaan van gegevens van hoge kwaliteit - gegevens die kunnen worden vertrouwd.

Bovendien kan gegevensafstamming worden gebruikt als onderdeel ter ondersteuning van een waarneembaarheidsprogramma. (In sommige artikelen wordt gepromoot dat gegevenswaarneming hetzelfde doel dient als gegevensafstamming, en er zit enige waarheid in de bewering. Gegevensafkomst is een onderdeel van gegevenswaarneming.) 

De term "waarneembaarheid" was oorspronkelijk een filosofisch concept dat rond 510 vGT door Heraclitus werd ontwikkeld. Hij stelde vast dat waarneembaarheid vergelijkende verschillen vereist - koude kan worden waargenomen in vergelijking met warmte. In 1871 ontwikkelde James C. Maxwell, een natuurkundige, het idee dat het onmogelijk was om de locatie van alle deeltjes binnen een thermodynamisch experiment te kennen, maar door "bepaalde sleutelresultaten" voor vergelijkende veranderingen te observeren, konden nauwkeurige voorspellingen worden gedaan. 

Maxwells beschrijving van waarneembaarheid met behulp van belangrijke outputs werd aangepast en toegepast op een verscheidenheid aan geautomatiseerde toepassingen, variërend van fabrieksapparatuur tot vliegtuigsensoren. Het concept werd vervolgens omarmd door DevOps voor het debuggen en omgaan met "productie-incidenten", rond 2016. In 2019 ontwikkelde Barr Moses - CEO en mede-oprichter van Monte Carlo - een waarneembaarheidsproces dat is ontworpen om een ​​overzicht te geven van de gegevensstroom van een organisatie. . 

Mozes schreef

“Data-observeerbaarheid is het vermogen van een organisatie om de gezondheid van de gegevens in hun systemen volledig te begrijpen. De waarneembaarheid van gegevens elimineert uitval van gegevens door best practices toe te passen waarvan is geleerd DevOps naar waarneembaarheid van de datapijplijn. '

Vijf pijlers van gegevenswaarneembaarheid

Gegevenswaarneming werkt om gegevens- en informatieproblemen op te lossen door een grondige kaart van de gegevens in realtime te bieden. Het biedt inzicht in de data-activiteiten van een organisatie. Veel bedrijven hebben gegevens die in silo's zijn opgeslagen, waardoor de waarneembaarheid wordt geblokkeerd. Gegevenssilo's moeten worden geëlimineerd om een ​​programma voor gegevensobservatie te ondersteunen. 

Wanneer activiteiten zoals tracking, monitoring, alarmering, analyse, logging en "vergelijkingen" worden uitgevoerd zonder een waarneembaarheidsdashboard, kan er een vorm van organisatorische opdeling plaatsvinden. Mensen op de ene afdeling realiseren zich niet dat hun inspanningen onbedoelde gevolgen hebben op een andere afdeling – zoals ontbrekende/silo-informatie die slechte besluitvorming bevordert of een deel van het systeem is uitgevallen en niemand beseft het. 

Onthoud dat waarneembaarheid gaat over het meten van bepaalde belangrijke outputs. De vijf pijlers (of belangrijkste resultaten) die Barr Moses ontwikkelde voor meetdoeleinden zijn: 

  • Kwaliteit: Gegevens van hoge kwaliteit worden als nauwkeurig beschouwd, terwijl gegevens van lage kwaliteit dat niet zijn. Metingen van de kwaliteit van de data geven inzicht of uw data te vertrouwen zijn. Er zijn verschillende manieren meten Datum kwaliteit.
  • Schema: Dit brengt veranderingen met zich mee in de manier waarop de gegevens zijn georganiseerd, en schemametingen kunnen breuken in de gegevensstroom laten zien. Bepalen wanneer, hoe en wie de wijzigingen heeft aangebracht, kan nuttig zijn in termen van preventief onderhoud. 
  • Volume: Grote hoeveelheden data zijn nuttig voor onderzoeks- en marketingdoeleinden. Dit kan organisaties een geïntegreerd beeld geven van hun klanten en markt. Hoe meer actuele en historische gegevens worden gebruikt tijdens het onderzoek, hoe meer inzichten.
  • Gegevens afstamming: Een goed data lineage-programma registreert wijzigingen in de data en de locaties ervan, en wordt normaal gesproken gebruikt om de datakwaliteit te verbeteren. Het kan echter ook worden gebruikt als onderdeel van een gegevensobservatieprogramma. In deze hoedanigheid wordt het gebruikt om eventuele pauzes op te lossen en op te sommen wat er voorafgaand aan de schade is gedaan. 
  • Versheid: Dit gaat in wezen over het niet gebruiken van oude informatie, of, zoals Barr Moses het noemt, verouderde gegevens. Versheid legt de nadruk op up-to-date data, wat belangrijk is bij het nemen van datagedreven beslissingen. Tijdstempels worden vaak gebruikt om te bepalen of de gegevens oud zijn. 

Gecombineerd kunnen de metingen van deze componenten, of pijlers, waardevolle inzichten opleveren in problemen die ontstaan ​​– of eenvoudigweg verschijnen – en de mogelijkheid bevorderen om reparaties zo snel mogelijk uit te voeren.

Uitdagingen op het gebied van gegevenswaarneming

Het juiste platform voor gegevensobservatie kan de manier veranderen waarop bedrijven hun gegevens onderhouden en beheren. Helaas kan de implementatie van het platform voor enkele uitdagingen zorgen. Compatibiliteitsproblemen zullen zich voordoen wanneer het platform niet goed past. 

Observability-platforms en -tools kunnen worden beperkt als de datapijplijn, de software, de servers en de databases niet volledig compatibel zijn. Deze platforms werken niet in een vacuüm, waardoor het belangrijk is om ze te elimineren gegevenssilo's uit het systeem en zorg ervoor dat alle datasystemen binnen de organisatie geïntegreerd zijn. 

Het is belangrijk om een ​​platform voor gegevensobservatie te testen voordat u een contract ondertekent.

Helaas, zelfs als alle interne en externe gegevensbronnen van het bedrijf correct in het platform zijn geïntegreerd, zijn ze anders datamodellen kan problemen veroorzaken. Veel bedrijven ondersteunen 400 of meer gegevensbronnen en elke externe bron kan een probleem vormen als deze niet dezelfde standaarden en indelingen gebruikt.

Met uitzondering van open-sourcetools, zijn observatieplatforms cloudgebaseerd en kunnen ze enige flexibiliteit bieden die fijnafstemming ondersteunt. 

De beste observatieplatforms zijn gericht op een gestandaardiseerd meetproces en loggingrichtlijnen. Dit bevordert de effectieve correlatie van informatie, maar externe gegevensbronnen en aangepaste gegevenspijplijnen kunnen problemen veroorzaken en extra handmatige inspanningen vereisen om taken uit te voeren die geautomatiseerd hadden moeten zijn.

Bovendien kunnen sommige tools gepaard gaan met ongebruikelijke opslagkosten die de schaalbaarheid beperken.

Data-observatieplatforms

Platforms voor gegevensobservatie bevatten meestal een verscheidenheid aan handige tools. Deze omvatten vaak geautomatiseerde ondersteuning voor geautomatiseerde gegevensafstamming, analyse van hoofdoorzaken, gegevenskwaliteit en monitoring om afwijkingen in de gegevensstroom te identificeren, op te lossen en te voorkomen. 

De platforms bevorderen een hogere productiviteit, gezondere pijplijnen en tevreden klanten. Enkele populaire platforms voor gegevensobservatie zijn:

  • databand biedt een zeer functioneel observatieplatform dat gegevensproblemen zeer snel kan detecteren en oplossen, met behulp van een continu observatieproces dat gegevensproblemen identificeert voordat ze uw bedrijf beïnvloeden. 
  • Monte Carlo biedt een observatieplatform dat kan worden omschreven als het bieden van waarneembaarheid "van pijplijn tot business intelligence.” Het brengt databetrouwbaarheid bij de orkestratie van verschillende dataservices en -tools. 
  • Metavlak beschikt over end-to-end waarneembaarheid.
  • Er zijn verschillende open source waarneembaarheidstools beschikbaar, die de moeite van het onderzoeken waard zijn.

Het belang van de waarneembaarheid van gegevens

Voor organisaties die te maken hebben met grote datastromen, kan waarneembaarheid worden gebruikt om het datasysteem als geheel te monitoren en alarmsignalen af ​​te geven wanneer zich een probleem voordoet. 

Omdat bedrijven enorme hoeveelheden gegevens uit verschillende bronnen verzamelen, ontwikkelen ze systemen om deze laag voor laag te verwerken. Deze systemen omvatten gegevensopslag, gegevenspijplijnen en een aantal hulpmiddelen. Elke extra complexiteitslaag vergroot de kans op downtime van gegevens door problemen zoals onverenigbaarheden of oude en ontbrekende gegevens.

Volgens Yackel: “Het continue gebruik van gegevenswaarneming om gegevenspijplijnen, gegevenssets en gegevenstabellen te bewaken, waarschuwt gegevensteams wanneer zich een gegevensincident voordoet en laat zien hoe de hoofdoorzaak kan worden verholpen, voordat dit gevolgen heeft voor hun bedrijf. Met datawaarneembaarheid kan engineering zich richten op het bouwen van geweldige dataproducten in plaats van het onderhouden van kapotte processen.” 

Gegevensobservatie zal bedrijven helpen om proactief de bron van pijplijnproblemen, gegevensfouten en inconsistenties in de gegevensstroom te identificeren om de klantrelaties te versterken en de gegevenskwaliteit te verbeteren.

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?