日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

故障復盤

更新時間:

故障復盤規范

故障復盤作為故障體系中的重要一環,整體復盤流程包括故障處理過程、改進分析、故障定責,基于包含標準化的復盤SOP、對應預防action推薦、問責管理機制,全面地回溯線上故障的發生,產出故障復盤報告和改進措施,避免故障重復發生。

復盤遵循以下標準流程:

  • 過程回溯:可使用5-why方法提出多個問題對處理過程進行深挖。如本次故障為什么會發生?為什么沒有提前發現?過程中各個團隊是如何處理的?處理過程是否有可以優化的空間?

  • 問題剖析:回溯完成過程之后,需要深層次剖析:是否流程機制層面問題?是否質量檢驗層面問題?是否產品業務層面問題?是否系統設計層面問題?有沒有更好的防御機制?如何避免再次發生?

  • 經驗總結:剖析出來深層次原因之后,需要切實給出可落地的Action,包括給出短期治標Action,長期治本Action,以及沉淀經驗和教訓。

  • 定級定責:完成原因和改進方案后,針對本次故障做最終的等級認可和故障責任劃分。責任團隊分為主要責任團隊和次要責任團隊,以及測試責任團隊。

  • 改進追蹤:當完成復盤后,如無法有效的落地執行改進,將導致復盤的成果白費。所以在故障復盤中就需要明確改進方案并限定完成時間。

    • 制定的action需要符合 SMART 原則,即:

      • Specific:即改進項。需要改進、優化的單項、指標是什么?

      • Measurable:即驗收標準。指定改驗收標準是什么?

      • Attainable:即改進項是否可以達到。避免出現一些假大空、無法落地的改進;

      • Relevant:即要與其他改進具有一定的相關性。即盡可能避免出現孤立的改進;

      • Time-bound:即預期解決時間。這個時間建議最長不要超過三個月,避免改進流于形式;

    • 一個完整的action建議記錄以下內容:標題、計劃完成時間、負責人(及其團隊或協助處理人)、驗收方式及驗收人、跟蹤人、改進措施的類別、具體改進內容描述及驗收標準。在改進項完成后可有選擇地進行驗收,如評審驗收、演練驗收等。驗收完成后由驗收負責人完結此改進action的整體工作。

復盤文檔一般包含以下內容:

  • 故障簡述:故障概述、影響面、處理人等

  • 故障背景:故障發生時的業務鏈路

  • 故障時間線:著重強調故障引入、故障發生、故障發現、業務響應、恢復執行、故障恢復幾個時間點

  • 故障原因分析:建議先一句話總結,再進行具體原因剖析

  • 故障過程分析:可從需求評估、代碼發布、故障應急等環節進行分析

  • 后續改進:后續改進措施,明確改進方和責任人

  • 故障等級/責任:參考上述故障等級定義,定義本次故障等級,并明確責任團隊和責任人。

故障數據運營

基于基礎故障數據,通過不同維度和形式,以線上和線下結合的方式,在報表平臺、安全生產報告、安全生產會議等不同場合進行故障數據的披露和運營。目的是利用歷史故障數據,度量穩定性現狀和能力。故障數據運營的核心是通過故障分量化計算考核,實現整體故障收斂。

故障分整體目標

安全生產故障分目標,經過與各業務團隊溝通采用自上而下拆解方式進行設定。比如本財年故障分同比上財年收斂20%-30%。安全生產故障分更深層次拆解由各業務團隊內部根據實際情況設定。

故障分計算方案

在設計故障分的計算規則時,建議考慮以下維度數據指標:

故障時長

故障時長=故障恢復時間-故障發生時間

故障發生時間

最接近故障等級定義激活(P4起)的時間點。按照如下順序:

  1. 針對業務監控:取首次達到故障等級(P4起)的時間為準;

  2. 針對用戶上報:取業務開始受影響的時間點;

  3. 若無法評估受影響的時間點則取首次用戶上報的時間。

故障恢復時間

故障止血(即:不再發生新增業務/用戶影響)的時間點(客戶端以測試通過且可實際修復問題版本提交APP審核為恢復時間);

如果有業務監控以監控恢復至正常基線為準,否則以止血時間為準。

注:故障時長及是否降級/減免如有爭議,以安全生產值班長判定為準。

收斂比

一般指本財年與上財年對比結果,體現與自身同期收斂效果,為負數代表收斂,負值越大說明收斂效果越好,為正數代表發散,正值越大說明發散越嚴重,具體計算方法為:

收斂比=(本財年某時段-上財年同時段)/上財年同時段

消耗比

一般指本財年實際消耗故障分,占故障分目標的比例,體現與設定收斂目標的差距,提示達到收斂目標的剩余消耗空間,數值越小越好。

消耗比= 本財年累計消耗故障分/財年故障分目標

制定故障分建議考慮以下原則:

  • 拉齊橫向標準:在企業上層拉齊標準,降低各個子部門和業務團隊的理解成本。

  • 減少重大故障影響:針對特大故障,設置較大的系數倍數,以凸顯特大故障對故障分的影響。

  • 鼓勵快速恢復:針對不同P等級故障,差異化設置系數,以體現恢復時長要求。比如同時針對P1P2級重大故障,設置了“5分鐘內恢復降一級,10分鐘內恢復故障分計80%”的通用標準。

  • 細化責任拆解:設置主次責團隊的故障分拆解邏輯,比如主次責團隊默認按7:3比例拆分故障分。

  • 故障分統計默認排除:容災演練&全鏈路壓測符合預期故障、特定打標過不參與故障統計的業務等。