Logo Zephyrnet

Sygnał kontra szum: równowaga między higieną dyżurów w zespołach opartych na danych – DATAVERSITY

Data:

W świecie oprogramowania działającego w czasie rzeczywistym czas pracy 24 godziny na dobę, 7 dni w tygodniu ma kluczowe znaczenie dla podstawowego oprogramowania, w którym w każdej sekundzie odbywają się miliony transakcji. W 2018 r. wydarzenie Amazon Prime Day odbyło się: 13-minutowa przerwa według niektórych szacunków mogło to kosztować firmę aż do 99 milionów dolarów utraconej sprzedaży. Niezawodność ma ogromne znaczenie, gdy firma zależy od niej w zakresie przychodów, obsługi klienta i przewagi konkurencyjnej. Oparte na danych zespoły polegają na wskaźnikach śledzenia i wszystkich danych dotyczących wydajności systemu, jakie mogą uzyskać, aby mieć pewność, że systemy działają i skalują się zgodnie z oczekiwaniami.

Aby poprawić niezawodność i zapewnić stały czas pracy, inżynierowie i menedżerowie często są dostępni pod telefonem w celu uzyskania usług, które posiadają. Dyżurowanie oznacza gotowość do potwierdzania alertów, łagodzenia skutków incydentów, zapewniania reakcji na alerty i właściwej eskalacji oraz podejmowania działań następczych po incydencie. To niezwykle ważna rola, gdyż dyżurujący inżynier często stanowi pierwszą linię obrony w zapewnieniu niezawodności i dostępności usług firmy. 

Oto, co różne poziomy dostępności mogą oznaczać dla Twojego zespołu:

Dostępność Przestój w ciągu roku 
99% 3.65 dni
99.9% 8.76 godzin 
99.99% 52.6 minut
99.999% 5.26 minut

Ale tutaj pojawia się problem: zła rotacja podczas rozmowy telefonicznej z niskim stosunkiem sygnału do szumu może prowadzić do wypalenia programistów, rezygnacji inżynierów i utraty koncentracji na prawdziwej pracy inżynierskiej. Zwiększa także średni czas do wykrycia incydentów, ponieważ programiści muszą spędzać czas na przesiewaniu szumu, aby zidentyfikować odpowiedni zestaw problemów, którymi należy się zająć. 

Jak zatem zapewnić zdrowe doświadczenie podczas rozmowy telefonicznej? 

W tym poście dowiesz się:

  • Wskazówki dla zespołów i kierowników inżynierii, jak poprawić higienę dyżurów
  • Przykłady firm stosujących skuteczne podejście na wezwanie
  • Pomysły warte rozważenia dla własnego zespołu

Identyfikuj problemy co tydzień

Pierwszym krokiem do zdrowego dyżuru jest identyfikacja problemów i regularne zapewnianie dobrego stosunku sygnału do szumu. Higiena na wezwanie nie jest jednorazowym rozwiązaniem, ale procesem ciągłym. Utwórz cotygodniowy przegląd, aby przeanalizować alerty i określić, które z nich dostarczają wartościowych sygnałów, a nie tylko szumu. Bezwzględnie eliminuj hałaśliwe alerty, które nie wymagają natychmiastowej uwagi. Typowym przykładem mogą być hałaśliwe alerty, gdy cały system jest w dobrej kondycji, ale występuje niewielki skok w metrykach, który jest przywracany automatycznie. W takich przypadkach ważne jest, aby zidentyfikować pierwotną przyczynę i natychmiast ją rozwiązać, zamiast pozwalać, aby często ostrzegała i odwracała uwagę programistów. 

Priorytetowo traktuj recydywistów

Alarmy, które uruchamiają się wielokrotnie, wymagają szczególnej uwagi. Jeśli problemy te nie zostaną rozwiązane, problemy te będą narastać i prowadzić do jeszcze większej liczby alertów w przyszłości. Nadaj priorytet naprawieniu tych recydywistów, aby wyprzedzić krzywą zmęczenia alertami. 

Alerty dotyczące usuwania duplikatów i grupowania

Podczas poważnego incydentu ostatnią rzeczą, jakiej chcesz, jest setki razy wzywanie programistów w związku z tym samym podstawowym problemem. Pracuj nad deduplikacją powiązanych alertów do jednego powiadomienia. Pomoże to Twojemu zespołowi skoncentrować się na rzeczywistym problemie, zamiast zagłębiać się w zbędne strony. Przykładowo, zamiast wyświetlać alerty o liczbie błędów na każdym hoście lub serwerze, sprawdź, czy zagregowany alert wyższego poziomu może zapewnić ten sam poziom niezawodności i możliwości wykrywania; wówczas agregacja pomoże poprawić ogólny zdrowy rozsądek. Ten pojedynczy alert zapewnia wyraźny sygnał, że występuje problem obejmujący całą aplikację, bez przytłaczania inżyniera dyżurującego hałasem.

Zautomatyzuj ręczną pracę

Dyżur często wiąże się z wielokrotnym wykonywaniem tych samych czynności ręcznie. Szukaj możliwości automatyzacji tych powtarzających się zadań. Może to być tak proste, jak skrypt elementu Runbook lub bardziej zaawansowany system automatycznego korygowania. Im bardziej możesz zautomatyzować, tym łatwiej będzie Ci dyżurować.

Promuj kulturę przyjazną dyżurom

Usprawnienie dyżurów to nie tylko wyzwanie techniczne, ale także kulturowe. Pracuj nad rozwojem kultury podkreślającej znaczenie zdrowego doświadczenia podczas rozmowy telefonicznej. Oznacza to zapewnienie inżynierom czasu na pracę nad higieną alertów, dzielenie się najlepszymi praktykami między zespołami i świętowanie zwycięstw w redukcji alertów. 

Znaczenie dodatkowego dyżuru

Bardzo ważne jest również, aby zespoły utrzymywały kontakt telefoniczny z głównymi i drugorzędnymi inżynierami dyżurującymi. Konkretne role i obowiązki głównych i dodatkowych inżynierów dyżurujących mogą się różnić w zależności od potrzeb zespołu. Niektóre zespoły korzystają z dodatkowego dyżuru jako kopii zapasowej dla stron, które główny może pominąć, podczas gdy inne wyznaczają główny zespół do obsługi tylko pilnych stron, a do pomocniczego przypisują zgłoszenia o niskim priorytecie. 

Niezależnie od tego, posiadanie urządzenia dodatkowego jest szczególnie istotne podczas łagodzenia skutków incydentów. Podczas incydentu drugi dyżurny może podjąć się ważnych zadań, takich jak sprawdzanie pulpitów nawigacyjnych usług zależności, komunikowanie się z interesariuszami i dalszymi klientami lub dokumentowanie incydentu, dzięki czemu główny dyżurny może skupić się na łagodzeniu skutków incydentu.

Dodatkowo, w przypadku przedłużającego się zdarzenia, drugi dyżur może przejąć główną rolę, zapewniając wsparcie i monitorowanie usługi przez cały czas trwania zdarzenia.

Owijanie w górę

Identyfikowanie i naprawianie procesów dyżurowych może prowadzić do ogromnych korzyści: szczęśliwszych członków zespołu, mniejszej liczby odejść inżynierów i większego skupienia się na najważniejszej pracy. 

Najważniejsze wnioski:

  • Regularnie przeglądaj alerty, aby utrzymać wysoki stosunek sygnału do szumu
  • Nadaj priorytet naprawieniu recydywistów
  • Usuń duplikaty powiązanych alertów
  • Zautomatyzuj ręczną pracę
  • Promuj kulturę, która ceni zdrowe doświadczenie podczas rozmowy telefonicznej
spot_img

Kawiarnia

Kawiarnia

Najnowsza inteligencja

spot_img