故障基礎(chǔ)數(shù)據(jù)管理
故障場景等級定義
日常運營中,除用戶方環(huán)境或自身操作引起的問題外,無論什么原因?qū)е碌姆?wù)中斷、服務(wù)品質(zhì)下降或用戶服務(wù)體驗下降的現(xiàn)象,都稱為故障。對故障影響程度的劃分就是故障等級定義。
定義故障等級是為了指定故障等級定義作為各業(yè)務(wù)的安全生產(chǎn)法則,推進各業(yè)務(wù)穩(wěn)定性提升。如評判各業(yè)務(wù)團隊的故障發(fā)現(xiàn)能力的標準就是故障等級定義的監(jiān)控發(fā)現(xiàn)率等。在定義故障等級的時候,需要從功能等級、業(yè)務(wù)體量、業(yè)務(wù)特性、量化影響4個維度進行設(shè)計,一個簡要的通用故障等級定義參考模板如下:
業(yè)務(wù)量級 | 功能分類 | 影響面 | P1 | P2 | P3 | P4 |
大體量 | 核心功能 | 成功率下跌30%及以上 | P1 | |||
成功率下跌20%~30% | P2 | |||||
成功率下跌20%以下 | P3 | |||||
非核心功能 | 成功率下跌30%及以上 | P2 | ||||
成功率下跌20%~30% | P3 | |||||
成功率下跌20%以下 | P4 | |||||
小體量 | 核心功能 | 10分鐘內(nèi)總體成功率下跌45%及以上 | P1 | |||
10分鐘內(nèi)總體成功率下跌30%~45% | P2 | |||||
10分鐘內(nèi)總體成功率下跌30%以下 | P3 | |||||
非核心功能 | 10分鐘內(nèi)總體成功率下跌45%及以上 | P2 | ||||
10分鐘內(nèi)總體成功率下跌30%~45% | P3 | |||||
10分鐘內(nèi)總體成功率下跌30%以下 | P4 |
故障場景監(jiān)控覆蓋
基于故障等級定義場景,配置對應(yīng)的監(jiān)控項接入7*24監(jiān)控值班,同時對接入的監(jiān)控數(shù)據(jù)額外提供基于算法的智能告警,或者接入研發(fā)可自閉環(huán)的風險預(yù)警,保障業(yè)務(wù)故障的監(jiān)控發(fā)現(xiàn)率,減少故障持續(xù)時間,降低故障影響。
為保障故障發(fā)現(xiàn)率,故障場景監(jiān)控覆蓋率建議維持在95%以上。
服務(wù)組&值班表管理
將故障應(yīng)急的相關(guān)人員群體,通過前置到故障場景的干系人做綁定配置,同時支持服務(wù)組和值班表,實現(xiàn)故障啟動后自動快速通知負責人上線處理的效果。
在設(shè)計相應(yīng)的管理方案時,需要考慮以下內(nèi)容:
服務(wù)組:提供服務(wù)的人員群體,服務(wù)包括故障處理,工單處理等
值班表:可以對服務(wù)組成員進行排班,讓故障應(yīng)急工作更有計劃性、不易遺漏
升級組:服務(wù)組的一種,通過服務(wù)組和升級組,可表達組與組之間的升級路徑
服務(wù)組與故障業(yè)務(wù)線的關(guān)系:一個服務(wù)組對應(yīng)故障中一個角色,但可以服務(wù)多條故障業(yè)務(wù)線
服務(wù)組與工單問題分類的關(guān)系:一個服務(wù)組可以服務(wù)工單多個問題分類
服務(wù)組與組織架構(gòu)的關(guān)系:一個服務(wù)組可以服務(wù)多個組織架構(gòu),一個組織架構(gòu)可以拆分為多個服務(wù)組
故障訂閱管理
故障通告訂閱是用來維護故障通告接收對象,可根據(jù)不同的條件發(fā)送不同的渠道。故障訂閱可以分為3種類型的對象:個人、干系人角色、釘釘群或其他通知渠道。通過合理的配置故障通告和訂閱,能夠確保相關(guān)干系人及時收到告警。