Zephyrnet-logo

Signaal versus ruis: evenwicht tussen oproephygiëne voor datagestuurde teams – DATAVERSITY

Datum:

In de real-time softwarewereld is 24×7 uptime van cruciaal belang voor kernsoftware waar elke seconde miljoenen transacties plaatsvinden. In 2018 beleefde Amazons Prime Day-evenement een Storing van 13 minuten dat, volgens sommige schattingen, het bedrijf misschien wel $99 miljoen aan omzetverlies heeft gekost. Betrouwbaarheid is van het grootste belang als het bedrijf ervan afhankelijk is voor omzet, klantervaring en concurrentievoordeel. Datagestuurd teams vertrouwen op het bijhouden van statistieken en alle systeemprestatiegegevens die ze kunnen krijgen om ervoor te zorgen dat systemen presteren en geschaald worden zoals verwacht.

Om de betrouwbaarheid te verbeteren en een constante uptime te garanderen, zijn technici en managers vaak oproepbaar voor de services waarvan zij eigenaar zijn. Een ‘op afroep’-functie houdt in dat u bereid bent waarschuwingen te erkennen, incidenten te beperken, te zorgen voor waarschuwingsreacties en de juiste escalaties, en follow-ups na incidenten uit te voeren. Het is een ongelooflijk belangrijke rol, omdat de oproepbare ingenieur vaak de eerste verdedigingslinie is bij het garanderen van de betrouwbaarheid en beschikbaarheid van de diensten van een bedrijf. 

Dit is wat verschillende beschikbaarheidsniveaus voor uw team kunnen betekenen:

Beschikbaarheid Downtime per jaar 
99% 3.65 dagen
99.9% 8.76 uur kunt opladen 
99.99% 52.6 minuten
99.999% 5.26 minuten

Maar hier is het probleem: een slechte oproepwisseling met een lage signaal-ruisverhouding kan leiden tot een burn-out bij ontwikkelaars, een technisch verloop en verlies van focus op het echte technische werk. Het vergroot ook de gemiddelde tijd tot het detecteren van incidenten, omdat ontwikkelaars tijd moeten besteden aan het doorzoeken van de ruis om de juiste reeks problemen te identificeren om op te reageren. 

Hoe zorg je voor een gezonde oproepervaring? 

In dit bericht leer je:

  • Tips voor teams en technische leiders om de hygiëne op afroep te verbeteren
  • Voorbeelden van bedrijven met effectieve oproepaanpak
  • Ideeën die het overwegen waard zijn voor uw eigen team

Identificeer wekelijks problemen

De eerste stap naar een gezonde bereikbaarheid is het identificeren van problemen en het regelmatig garanderen van een sterke signaal-ruisverhouding. Hygiëne op afroep is geen eenmalige oplossing, maar een continu proces. Stel een wekelijkse beoordeling in om waarschuwingen te analyseren en te bepalen welke waardevolle signalen opleveren in plaats van alleen maar ruis. Elimineer meedogenloos luidruchtige waarschuwingen die geen onmiddellijke aandacht vereisen. Een veelvoorkomend voorbeeld hiervan zijn luidruchtige waarschuwingen wanneer het systeem als geheel in orde is, maar een kleine fout in de statistieken vertoont die automatisch wordt hersteld. In dergelijke gevallen is het belangrijk om de hoofdoorzaak te identificeren en deze onmiddellijk aan te pakken, in plaats van deze regelmatig te laten waarschuwen en de aandacht van de ontwikkelaar af te leiden. 

Geef prioriteit aan recidivisten

Waarschuwingen die herhaaldelijk afgaan vereisen speciale aandacht. Als deze problemen niet worden aangepakt, zullen deze problemen een sneeuwbaleffect krijgen en in de toekomst tot nog meer waarschuwingen leiden. Geef prioriteit aan het aanpakken van deze recidivisten om de waarschuwingsvermoeidheidscurve voor te zijn. 

Ontdubbel en groepeer gerelateerde waarschuwingen

Tijdens een groot incident is het laatste wat je wilt dat ontwikkelaars honderden keren worden opgeroepen voor hetzelfde onderliggende probleem. Werk eraan om gerelateerde waarschuwingen te ontdubbelen naar één enkele melding. Hierdoor kan uw team gefocust blijven op het daadwerkelijke probleem, in plaats van verzonken te raken in overbodige pagina’s. In plaats van waarschuwingen over het foutpercentage op elke host of server, kunt u bijvoorbeeld kijken of een geaggregeerde waarschuwing op een hoger niveau hetzelfde niveau van betrouwbaarheid en detectiemogelijkheden kan bieden; dan zal aggregatie de algehele geestelijke gezondheid helpen verbeteren. Deze enkele waarschuwing geeft een duidelijk signaal dat er een probleem voor de hele applicatie is, zonder de technicus van wacht te overweldigen met ruis.

Automatiseer handmatig werk

Op afroep gaat het vaak om het herhaaldelijk uitvoeren van dezelfde handmatige stappen. Zoek naar mogelijkheden om deze herhaalde taken te automatiseren. Dit kan zo eenvoudig zijn als een runbookscript of een geavanceerder systeem voor automatisch herstel. Hoe meer u kunt automatiseren, hoe eenvoudiger het wordt om op afroep te zijn.

Stimuleer een oproepvriendelijke cultuur

Het verbeteren van de bereikbaarheid is niet alleen een technische uitdaging, maar ook een culturele uitdaging. Werk aan de ontwikkeling van een cultuur waarin het belang van een gezonde oproepervaring wordt benadrukt. Dit betekent dat technici de tijd krijgen om te werken aan waarschuwingshygiëne, best practices tussen teams delen en de overwinningen op het terugdringen van waarschuwingen vieren. 

Het belang van secundaire oproepdiensten

Het is ook erg belangrijk dat teams een aanwezigheidsdienst onderhouden met primaire en secundaire oproeptechnici. De specifieke rollen en verantwoordelijkheden van de primaire en secundaire oproepmonteurs kunnen variëren, afhankelijk van de behoeften van het team. Sommige teams gebruiken de secundaire oproepdienst als back-up voor alle pagina's die de primaire mogelijk mist, terwijl anderen de primaire toewijzen om alleen dringende pagina's af te handelen en tickets met een lage prioriteit toe te wijzen aan de secundaire. 

Hoe dan ook, het hebben van een secundaire is vooral van cruciaal belang tijdens het beperken van incidenten. Tijdens een incident kan de secundaire oproepkracht belangrijke taken op zich nemen, zoals het onderzoeken van dashboards van afhankelijkheidsdiensten, communiceren met belanghebbenden en downstreamklanten, of het documenteren van het incident, waardoor de primaire oproepkracht zich kan concentreren op het beperken van het incident.

Bovendien kan de secundaire wachtdienst bij een langdurig incident de primaire rol overnemen, zodat de dienst tijdens het incident ondersteund en gemonitord blijft.

Afsluiten

Het identificeren en oplossen van oproepprocessen kan enorme voordelen opleveren: gelukkigere teamgenoten, minder technisch personeelsverloop en meer focus op het werk dat er het meest toe doet. 

De belangrijkste afhaalrestaurants:

  • Controleer waarschuwingen regelmatig om een ​​hoge signaal-ruisverhouding te behouden
  • Geef prioriteit aan het opsporen van recidivisten
  • Ontdubbel gerelateerde waarschuwingen
  • Automatiseer handmatig werk
  • Stimuleer een cultuur waarin waarde wordt gehecht aan een gezonde oproepervaring
spot_img

Laatste intelligentie

spot_img