Bijna een jaar geleden stuitte IBM op een gegevensvalidatieprobleem tijdens een van onze tijdgevoelige gegevensstromen over fusies en overnames. We werden geconfronteerd met verschillende uitdagingen terwijl we werkten aan het oplossen van het probleem, waaronder het oplossen van problemen, het identificeren van het probleem, het repareren van de gegevensstroom, het aanbrengen van wijzigingen in de downstream-datapijplijnen en het uitvoeren van een ad-hocuitvoering van een geautomatiseerde workflow.
Verbetering van de gegevensresolutie en monitoring-efficiëntie met Databand
Nadat het onmiddellijke probleem was opgelost, bleek uit een retrospectieve analyse dat een goede gegevensvalidatie en intelligente monitoring de pijn hadden kunnen verlichten en de tijd tot oplossing hadden kunnen versnellen. In plaats van een oplossing op maat te ontwikkelen uitsluitend voor het directe probleem, zocht IBM naar een breed toepasbare oplossing voor gegevensvalidatie die niet alleen dit scenario aankon, maar ook potentiële over het hoofd geziene problemen.
Toen ontdekte ik een van onze onlangs aangeschafte producten, IBM® Databand® voor dataobservatie. In tegenstelling tot traditionele monitoringtools met op regels gebaseerde monitoring of honderden op maat ontwikkelde monitoringscripts, biedt Databand zelflerende monitoring. Het observeert gegevensgedrag uit het verleden en identificeert afwijkingen die bepaalde drempels overschrijden. Dankzij deze machine learning-mogelijkheid kunnen gebruikers gegevens monitoren met minimale regelconfiguratie en detectie van afwijkingen, zelfs als ze beperkte kennis hebben over de gegevens of de gedragspatronen ervan.
Optimalisatie van de observatie van datastromen met de zelflerende monitoring van Databand
Databand houdt rekening met het historische gedrag van de gegevensstroom en signaleert verdachte activiteiten terwijl de gebruiker wordt gewaarschuwd. IBM integreerde Databand in onze datastroom, die meer dan 100 pijplijnen omvatte. Het zorgde voor gemakkelijk waarneembare statusupdates voor alle runs en pijplijnen en, nog belangrijker, bracht fouten aan het licht. Hierdoor konden we ons concentreren op het herstel van gegevensstroomincidenten en deze versnellen.
Databand voor waarneembaarheid van gegevens maakt gebruik van zelflerend om het volgende te monitoren:
- Schemawijzigingen: Wanneer een schemawijziging wordt gedetecteerd, markeert Databand dit op een dashboard en verzendt een waarschuwing. Iedereen die met gegevens werkt, is waarschijnlijk scenario's tegengekomen waarin een gegevensbron schemawijzigingen ondergaat, zoals het toevoegen of verwijderen van kolommen. Deze veranderingen hebben invloed op de workflows, die op hun beurt de verwerking van de downstream datapijplijn beïnvloeden, wat tot een rimpeleffect leidt. Databand kan de schemageschiedenis analyseren en ons onmiddellijk waarschuwen voor eventuele afwijkingen, waardoor mogelijke verstoringen worden voorkomen.
- Impact van de Service Level Agreement (SLA): Databand toont de datalijn en identificeert stroomafwaartse datapijplijnen die zijn getroffen door een datapijplijnstoring. Als er een SLA is gedefinieerd voor de levering van gegevens, helpen waarschuwingen bij het herkennen en handhaven van SLA-naleving.
- Prestatie- en runtime-afwijkingen: Databand bewaakt de duur van datapijplijnruns en leert afwijkingen te detecteren en deze indien nodig te markeren. Gebruikers hoeven zich niet bewust te zijn van de duur van de pijplijn; Databand leert van zijn historische gegevens.
- Status: Databand bewaakt de status van runs, inclusief of deze zijn mislukt, geannuleerd of succesvol.
- Gegevensvalidatie: Databand observeert datawaardebereiken in de loop van de tijd en stuurt een waarschuwing bij het detecteren van afwijkingen. Dit omvat typische statistieken zoals gemiddelde, standaarddeviatie, minimum, maximum en kwartielen.
Transformatieve Databand-waarschuwingen voor verbeterde datapijplijnen
Gebruikers kunnen waarschuwingen instellen met behulp van de Databand-gebruikersinterface, die ongecompliceerd is en beschikt over een intuïtief dashboard dat workflows bewaakt en ondersteunt. Het biedt diepgaand inzicht via gerichte acyclische grafieken, wat handig is bij het omgaan met veel datapijplijnen. Dit alles-in-één systeem stelt ondersteuningsteams in staat zich te concentreren op gebieden die aandacht vereisen, waardoor ze de resultaten kunnen versnellen.
De fusies en overnames van IBM Enterprise Data hebben ons in staat gesteld onze datapijplijnen met Databand te verbeteren, en we hebben niet achterom gekeken. We zijn verheugd u deze transformerende software aan te bieden waarmee u data-incidenten eerder kunt identificeren, sneller kunt oplossen en betrouwbaardere gegevens aan bedrijven kunt leveren.
Lever betrouwbare gegevens met continue waarneembaarheid van gegevens
Was dit artikel behulpzaam?
JaNee
Meer uit Gegevens en analyses
IBM-nieuwsbrieven
Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.
Abonneer nu
Meer nieuwsbrieven
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://www.ibm.com/blog/ibm-databand-self-learning-for-anomaly-detection/