Λογότυπο Zephyrnet

Σήμα έναντι θορύβου: Εξισορρόπηση της υγιεινής κατά την κλήση για ομάδες που βασίζονται σε δεδομένα – DATAVERSITY

Ημερομηνία:

Στον κόσμο του λογισμικού σε πραγματικό χρόνο, ο χρόνος λειτουργίας 24×7 είναι κρίσιμος για το βασικό λογισμικό όπου πραγματοποιούνται εκατομμύρια συναλλαγές κάθε δευτερόλεπτο. Το 2018, η εκδήλωση Prime Day της Amazon παρουσίασε α Διακοπή 13 λεπτών που, σύμφωνα με ορισμένες εκτιμήσεις, μπορεί να κόστισε στην εταιρεία έως και 99 εκατομμύρια δολάρια σε χαμένες πωλήσεις. Η αξιοπιστία είναι πρωταρχικής σημασίας όταν η επιχείρηση εξαρτάται από αυτήν για έσοδα, εμπειρία πελάτη και ανταγωνιστικό πλεονέκτημα. Βάσει δεδομένων Οι ομάδες βασίζονται σε μετρήσεις παρακολούθησης και σε όλα τα δεδομένα απόδοσης συστήματος που μπορούν να λάβουν για να διασφαλίσουν ότι τα συστήματα έχουν απόδοση και κλιμάκωση όπως αναμένεται.

Για τη βελτίωση της αξιοπιστίας και τη διασφάλιση σταθερού χρόνου λειτουργίας, οι μηχανικοί και οι διευθυντές είναι συνήθως σε ετοιμότητα για τις υπηρεσίες που διαθέτουν. Μια «εφημερία» περιλαμβάνει την ετοιμότητα για αναγνώριση ειδοποιήσεων, μετριασμό συμβάντων, διασφάλιση ανταπόκρισης σε εγρήγορση και σωστές κλιμακώσεις και παρακολούθηση μετά το περιστατικό. Είναι ένας απίστευτα σημαντικός ρόλος, καθώς ο εφημερεύων μηχανικός είναι συχνά η πρώτη γραμμή άμυνας για τη διασφάλιση της αξιοπιστίας και της διαθεσιμότητας των υπηρεσιών μιας εταιρείας. 

Δείτε τι μπορεί να σημαίνουν διαφορετικά επίπεδα διαθεσιμότητας για την ομάδα σας:

Διαθεσιμότητα Διακοπή λειτουργίας ανά έτος 
99% 3.65 ημέρες
99.9% 8.76 ώρες 
99.99% 52.6 λεπτά
99.999% 5.26 λεπτά

Αλλά εδώ είναι το πρόβλημα: Μια κακή εναλλαγή κατά τη διάρκεια της κλήσης με χαμηλή αναλογία σήματος προς θόρυβο μπορεί να οδηγήσει σε εξάντληση προγραμματιστών, μηχανική ανατροπή και απώλεια εστίασης σε πραγματικές εργασίες μηχανικής. Αυξάνει επίσης τον μέσο χρόνο για την ανίχνευση περιστατικών, καθώς οι προγραμματιστές πρέπει να αφιερώσουν χρόνο για να ψάξουν τον θόρυβο για να εντοπίσουν το σωστό σύνολο ζητημάτων για δράση. 

Λοιπόν, πώς διασφαλίζετε μια υγιή εμπειρία εφημερίας; 

Σε αυτήν την ανάρτηση, θα μάθετε:

  • Συμβουλές για ομάδες και ηγέτες μηχανικών για τη βελτίωση της υγιεινής κατά την εφημερία
  • Παραδείγματα εταιρειών με αποτελεσματικές προσεγγίσεις εφημερίας
  • Ιδέες που αξίζει να εξετάσετε για τη δική σας ομάδα

Προσδιορίστε θέματα εβδομαδιαία

Το πρώτο βήμα για μια υγιή εφημερία είναι να εντοπίζετε προβλήματα και να διασφαλίζετε τακτικά μια ισχυρή αναλογία σήματος προς θόρυβο. Η υγιεινή των εφημεριών δεν είναι μια εφάπαξ λύση, αλλά μια συνεχής διαδικασία. Ρυθμίστε μια εβδομαδιαία ανασκόπηση για να αναλύσετε τις ειδοποιήσεις και να προσδιορίσετε ποιες παρέχουν πολύτιμα σήματα έναντι του θορύβου. Εξαλείψτε ανελέητα τις θορυβώδεις ειδοποιήσεις που δεν απαιτούν άμεση προσοχή. Ένα συνηθισμένο παράδειγμα αυτού θα μπορούσε να είναι οι θορυβώδεις ειδοποιήσεις όταν το συνολικό σύστημα είναι υγιές αλλά έχει μια μικρή απόκλιση στις μετρήσεις που ανακτά αυτόματα. Σε τέτοιες περιπτώσεις, είναι σημαντικό να εντοπίσετε τη βασική αιτία και να την αντιμετωπίσετε αμέσως αντί να την αφήνετε να ειδοποιεί και να εκτρέπει συχνά την προσοχή του προγραμματιστή. 

Δώστε προτεραιότητα σε επαναλαμβανόμενους παραβάτες

Οι ειδοποιήσεις που πυροδοτούν επανειλημμένα απαιτούν ιδιαίτερη προσοχή. Εάν δεν αντιμετωπιστούν, αυτά τα προβλήματα χιονοστιβάδας και οδηγούν σε ακόμη περισσότερες ειδοποιήσεις στο μέλλον. Δώστε προτεραιότητα στη διόρθωση αυτών των επαναλαμβανόμενων παραβατών για να προηγηθείτε της καμπύλης κόπωσης σε εγρήγορση. 

Κατάργηση διπλότυπων και ειδοποιήσεων που σχετίζονται με ομάδες

Κατά τη διάρκεια ενός σημαντικού περιστατικού, το τελευταίο πράγμα που θέλετε είναι οι προγραμματιστές να σελιδοποιούνται εκατοντάδες φορές για το ίδιο υποκείμενο ζήτημα. Εργαστείτε για την κατάργηση των διπλότυπων σχετικών ειδοποιήσεων σε μία μόνο ειδοποίηση. Αυτό θα βοηθήσει την ομάδα σας να παραμείνει εστιασμένη στο πραγματικό πρόβλημα αντί να θαφτεί σε περιττές σελίδες. Για παράδειγμα, αντί να έχετε ειδοποιήσεις ποσοστού σφάλματος σε κάθε κεντρικό υπολογιστή ή διακομιστή, δείτε εάν μια συγκεντρωτική ειδοποίηση υψηλότερου επιπέδου μπορεί να παρέχει το ίδιο επίπεδο αξιοπιστίας και δυνατοτήτων ανίχνευσης. Στη συνέχεια, η συσσώρευση θα βοηθήσει στη βελτίωση της συνολικής λογικής. Αυτή η μεμονωμένη ειδοποίηση παρέχει ένα σαφές μήνυμα ότι υπάρχει πρόβλημα σε ολόκληρη την εφαρμογή, χωρίς να κατακλύζει τον θόρυβο του μηχανικού που είναι σε ετοιμότητα.

Αυτοματοποιήστε το χειροκίνητο Toil

Η εφημερία συχνά περιλαμβάνει την επανειλημμένη εκτέλεση των ίδιων χειροκίνητων βημάτων. Αναζητήστε ευκαιρίες για να αυτοματοποιήσετε αυτές τις επαναλαμβανόμενες εργασίες. Αυτό θα μπορούσε να είναι τόσο απλό όσο ένα σενάριο runbook ή ένα πιο εξελιγμένο σύστημα αυτόματης αποκατάστασης. Όσο περισσότερα μπορείτε να αυτοματοποιήσετε, τόσο πιο εύκολη γίνεται η κλήση.

Καλλιεργήστε μια φιλική κουλτούρα κατά την κλήση

Η βελτίωση της εφημερίας δεν είναι απλώς μια τεχνική πρόκληση, αλλά και μια πολιτιστική πρόκληση. Εργαστείτε για την ανάπτυξη μιας κουλτούρας που δίνει έμφαση στη σημασία μιας υγιούς εμπειρίας εφημερίας. Αυτό σημαίνει ότι δίνεται χρόνος στους μηχανικούς να εργαστούν για την υγιεινή συναγερμού, μοιράζονται τις βέλτιστες πρακτικές μεταξύ των ομάδων και γιορτάζοντας τις νίκες μείωσης των συναγερμών. 

Σημασία της δευτερεύουσας εφημερίας

Είναι επίσης πολύ σημαντικό οι ομάδες να διατηρούν μια οργάνωση εφημερίας με πρωτοβάθμιους και δευτερεύοντες μηχανικούς εφημερίας. Οι συγκεκριμένοι ρόλοι και οι ευθύνες των πρωτοβάθμιων και δευτεροβάθμιων εφημεριών μηχανικών μπορεί να ποικίλλουν ανάλογα με τις ανάγκες της ομάδας. Ορισμένες ομάδες χρησιμοποιούν τη δευτερεύουσα εφημερία ως εφεδρικό για τυχόν σελίδες που ενδέχεται να χάσει η κύρια, ενώ άλλες αναθέτουν στην κύρια για να χειρίζεται μόνο επείγουσες σελίδες και εκχωρούν εισιτήρια χαμηλής προτεραιότητας στη δευτερεύουσα. 

Ανεξάρτητα, η ύπαρξη δευτερεύοντος είναι ιδιαίτερα κρίσιμη κατά τη διάρκεια του μετριασμού του περιστατικού. Κατά τη διάρκεια ενός συμβάντος, η δευτερεύουσα εφημερία μπορεί να αναλάβει σημαντικές εργασίες όπως η διερεύνηση των πινάκων εργαλείων των υπηρεσιών εξάρτησης, η επικοινωνία με τους ενδιαφερόμενους και οι μεταγενέστεροι πελάτες ή η τεκμηρίωση του συμβάντος, επιτρέποντας στην κύρια εφημερία να επικεντρωθεί στον μετριασμό του περιστατικού.

Επιπλέον, σε περίπτωση παρατεταμένου περιστατικού, η δευτερεύουσα εφημερία μπορεί να αναλάβει τον πρωταρχικό ρόλο, διασφαλίζοντας ότι η υπηρεσία παραμένει υποστηριζόμενη και παρακολουθούμενη καθ' όλη τη διάρκεια του συμβάντος.

Ολοκληρώνοντας

Ο εντοπισμός και η διόρθωση των διαδικασιών εφημερίας μπορεί να οδηγήσει σε τεράστια οφέλη: πιο ευτυχισμένοι συμπαίκτες, μειωμένη μηχανική αναστάτωση και περισσότερη εστίαση στη δουλειά που έχει μεγαλύτερη σημασία. 

Οι βασικές επιλογές:

  • Ελέγχετε τακτικά τις ειδοποιήσεις για να διατηρείτε υψηλή αναλογία σήματος προς θόρυβο
  • Δώστε προτεραιότητα στη διόρθωση των επαναλαμβανόμενων παραβατών
  • Κατάργηση διπλότυπων σχετικών ειδοποιήσεων
  • Αυτοματοποιήστε τη χειροκίνητη εργασία
  • Καλλιεργήστε μια κουλτούρα που εκτιμά μια υγιή εμπειρία εφημερίας
spot_img

Τελευταία Νοημοσύνη

spot_img