故障復盤
故障復盤規范
故障復盤作為故障體系中的重要一環,整體復盤流程包括故障處理過程、改進分析、故障定責,基于包含標準化的復盤SOP、對應預防action推薦、問責管理機制,全面地回溯線上故障的發生,產出故障復盤報告和改進措施,避免故障重復發生。
復盤遵循以下標準流程:
過程回溯:可使用5-why方法提出多個問題對處理過程進行深挖。如本次故障為什么會發生?為什么沒有提前發現?過程中各個團隊是如何處理的?處理過程是否有可以優化的空間?
問題剖析:回溯完成過程之后,需要深層次剖析:是否流程機制層面問題?是否質量檢驗層面問題?是否產品業務層面問題?是否系統設計層面問題?有沒有更好的防御機制?如何避免再次發生?
經驗總結:剖析出來深層次原因之后,需要切實給出可落地的Action,包括給出短期治標Action,長期治本Action,以及沉淀經驗和教訓。
定級定責:完成原因和改進方案后,針對本次故障做最終的等級認可和故障責任劃分。責任團隊分為主要責任團隊和次要責任團隊,以及測試責任團隊。
改進追蹤:當完成復盤后,如無法有效的落地執行改進,將導致復盤的成果白費。所以在故障復盤中就需要明確改進方案并限定完成時間。
制定的action需要符合 SMART 原則,即:
Specific:即改進項。需要改進、優化的單項、指標是什么?
Measurable:即驗收標準。指定改驗收標準是什么?
Attainable:即改進項是否可以達到。避免出現一些假大空、無法落地的改進;
Relevant:即要與其他改進具有一定的相關性。即盡可能避免出現孤立的改進;
Time-bound:即預期解決時間。這個時間建議最長不要超過三個月,避免改進流于形式;
一個完整的action建議記錄以下內容:標題、計劃完成時間、負責人(及其團隊或協助處理人)、驗收方式及驗收人、跟蹤人、改進措施的類別、具體改進內容描述及驗收標準。在改進項完成后可有選擇地進行驗收,如評審驗收、演練驗收等。驗收完成后由驗收負責人完結此改進action的整體工作。
復盤文檔一般包含以下內容:
故障簡述:故障概述、影響面、處理人等
故障背景:故障發生時的業務鏈路
故障時間線:著重強調故障引入、故障發生、故障發現、業務響應、恢復執行、故障恢復幾個時間點
故障原因分析:建議先一句話總結,再進行具體原因剖析
故障過程分析:可從需求評估、代碼發布、故障應急等環節進行分析
后續改進:后續改進措施,明確改進方和責任人
故障等級/責任:參考上述故障等級定義,定義本次故障等級,并明確責任團隊和責任人。
故障數據運營
基于基礎故障數據,通過不同維度和形式,以線上和線下結合的方式,在報表平臺、安全生產報告、安全生產會議等不同場合進行故障數據的披露和運營。目的是利用歷史故障數據,度量穩定性現狀和能力。故障數據運營的核心是通過故障分量化計算考核,實現整體故障收斂。
故障分整體目標
安全生產故障分目標,經過與各業務團隊溝通采用自上而下拆解方式進行設定。比如本財年故障分同比上財年收斂20%-30%。安全生產故障分更深層次拆解由各業務團隊內部根據實際情況設定。
故障分計算方案
在設計故障分的計算規則時,建議考慮以下維度數據指標:
故障時長
故障時長=故障恢復時間-故障發生時間
故障發生時間
最接近故障等級定義激活(P4起)的時間點。按照如下順序:
針對業務監控:取首次達到故障等級(P4起)的時間為準;
針對用戶上報:取業務開始受影響的時間點;
若無法評估受影響的時間點則取首次用戶上報的時間。
故障恢復時間
故障止血(即:不再發生新增業務/用戶影響)的時間點(客戶端以測試通過且可實際修復問題版本提交APP審核為恢復時間);
如果有業務監控以監控恢復至正常基線為準,否則以止血時間為準。
注:故障時長及是否降級/減免如有爭議,以安全生產值班長判定為準。
收斂比
一般指本財年與上財年對比結果,體現與自身同期收斂效果,為負數代表收斂,負值越大說明收斂效果越好,為正數代表發散,正值越大說明發散越嚴重,具體計算方法為:
收斂比=(本財年某時段-上財年同時段)/上財年同時段
消耗比
一般指本財年實際消耗故障分,占故障分目標的比例,體現與設定收斂目標的差距,提示達到收斂目標的剩余消耗空間,數值越小越好。
消耗比= 本財年累計消耗故障分/財年故障分目標
制定故障分建議考慮以下原則:
拉齊橫向標準:在企業上層拉齊標準,降低各個子部門和業務團隊的理解成本。
減少重大故障影響:針對特大故障,設置較大的系數倍數,以凸顯特大故障對故障分的影響。
鼓勵快速恢復:針對不同P等級故障,差異化設置系數,以體現恢復時長要求。比如同時針對P1P2級重大故障,設置了“5分鐘內恢復降一級,10分鐘內恢復故障分計80%”的通用標準。
細化責任拆解:設置主次責團隊的故障分拆解邏輯,比如主次責團隊默認按7:3比例拆分故障分。
故障分統計默認排除:容災演練&全鏈路壓測符合預期故障、特定打標過不參與故障統計的業務等。