故障止損恢復
更新時間:
故障初因定位
集成企業內部可利用的所有穩定性相關數據(變更事件,數據庫、MQ等中間件異常事件),以及集成各業務自建的定位工具能力,并在故障及風險預警的應急過程中進行可疑原因定位,幫助促進故障及風險預警初因定位的時長縮短。
快恢預案推薦
通用的故障恢復方法一般包括重啟、回滾、擴容、切流、限流、降級等??旎值膱绦行屎艽蟪潭热Q于是否有完備的預案和定期演練。
建議在故障應急協同群中推薦輸出常見的快速恢復能力,并提供PC、手機端的一鍵快速執行能力,減少研發在各自平臺上查找快恢入口的時間,也解決研發在外無電腦應急的尷尬局面??旎帜芰χ饕斯な崂砜旎诸A案、通用垂直專項快恢能力:
人工梳理預案:通過全面梳理故障場景及風險場景的可用降級預案來達到該場景觸發故障時,系統自動推薦前期關聯的預案,提供故障群內一鍵執行的方式,也提供設定執行條件,符合條件后系統自動執行的方式。
通用垂直專項快恢能力:通過集成包括DB側慢SQL限流、變更極速回滾、多活容災切流快恢等通用的快恢能力,結合監控、日志等數據自動定位的故障原因進行對應的快恢方式推薦。
文檔內容是否對您有幫助?