故障發現
更新時間:
7*24監控值班
對于有條件的企業,可以設立全球運行指揮中心(Global Operations Center,簡稱GOC),實現7*24監控值班,時刻關注核心業務線上異常與故障。對于完成監控覆蓋的核心業務場景,在異常上報時,通過工具自動檢測或值班人員人工判斷,及時識別風險或故障,以風險預警和故障通告的形式快速調度應急負責人上線處理,避免業務受損或降低業務受損程度。
之所以設立7*24監控值班,是因為報警準確率無法達到100%。為了保證觸達業務研發的電話報警準確度、降低無效打擾,需要人工判斷是否真實異常;各業務對故障的重視程度都非常高,誤發、漏發故障都會產生較大影響,故障需要人工確認發送保證準確;故障處理過程需要人工組織跟進;故障應急爭分奪秒,Oncall時效難以保障。7*24監控值班的主要考核指標有:通告及時率、通告準確率、快恢執行率。
智能基線告警
智能基線告警是一套集成了統計學方法與機器學習算法,自動學習指標數據的歷史規律,進而檢測曲線異常突變的智能化告警;針對具備周期規律的監控指標,智能基線告警相比自定義告警規則,具備較高的異常檢測準確率。
智能基線報警特點:
無需人工配置報警規則,基于曲線指標的歷史數據自動生成異常檢測參數實現報警;
抑制短暫沖高回落引發的誤報,對應大促時業務指標沖高的業務場景;
抑制周期性誤報,當跌落型異常在同一時刻持續多天時抑制該報警,對應每天大促或消息型任務每天定時跌落的業務場景。
建議重點覆蓋成功(總)量、成功(失敗)率、失敗量三類場景的業務指標。
文檔內容是否對您有幫助?