本文主要介紹如何進行業務監控的配置。
監控配置
業務監控提供了一種日志數據分析&統計的監控方式,支持用戶根據不同的服務,配置多個業務監控項。
以下為監控項配置過程引導。
一、打開頁面
點擊菜單【監控中心-業務監控】,打開業務監控頁面。
本頁面展示已配置的監控項,支持按關聯服務、監控項名稱和告警狀態進行模糊搜索。
右上角小框展示當前數據源為API的監控項條數,支持添加【新建按鈕】,創建新的業務監控配置。
二、新增監控
點擊【新建按鈕】,打開新增頁面。
設定監控項名稱,選擇監控項的歸屬服務、數據來源(默認API)。
創建業務監控項的前提,是當前服務已經通過【集成配置】獲取API Key,并向運維事件中心推送了日志數據。否則無法進行日志解析和統計指標配置。
三、日志篩選
系統支持按黑白名單配置,過濾日志數據。
黑名單:按規則過濾,并丟棄含黑名單字段的日志。相當于 SQL 里的[Where Field < >?]。
白名單:按規則過濾,并丟棄不包含白名單字段的日志。類似SQL里的[Where Field =?]。
黑白名單可以組合件進行日志篩選,黑名單的過濾優先級高于白名單。
1.白名單設置方式:
點擊【新增白名單】按鈕,點擊【白名單列】,打開彈窗,手動命名白名單列名如result。
選取規則:
在示例日志數據中手動劃選某個字段的value值或字符,系統自動定位關鍵字的位置,并生成列值選取規則,如:左起第 1 個 :至,。按選取規則解析示例日志,并在側邊欄展示此位置出現的字段列值和出現次數。
選取規則支持手動輸入,修改第X個M至N,按修改后的規則自動匹配到相應區域的日志字段。
列值翻譯
系統支持將按規則選取的列值進行統一翻譯,如4XX狀態碼統一翻譯為error,200翻譯為success。便于統計成功或失敗結果。
白名單值
支持手動設定取值范圍內的特定值為白名單,如過濾result:success的日志數據,將success設為白名單值。若需要設定多個值,可以以英文逗號,分隔。支持取翻譯后的列值回填,并過濾翻譯值與原始值。
如401,402,404翻譯為error,白名單值設error后,將會一并過濾401,402,404以及error。
2.黑名單設置方式:
黑名單設置方式同白名單一致。
四、列值分組
列值分組等同于SQL中的GroupBy功能,Group表示分組,By表示按分組列的值進行分組。
列值分組的選值規則同黑白名單一致,按手動劃選區域定位關鍵字。通過選取規則獲取到的列值進行分組,用于抽象成為分組列如時間、數值、結果等。
分組列可以設定列值范圍為明確的值如success,Y等,多個值之間用英文,切割。若不限定分組值,可以設為星號*,將按選值規則定位區域的所有值進行GroupBy。
分組列可以配多個分組,按用戶需要自定義添加和刪減。
五、統計列
統計列,是基于列值分組后的數據,進行下一步的維度數據計算。
統計方式包含6種維度:指對日志內容按維度值進行統計計算如求日志行數/去重求行數、維度值最大值/最小值、維度值求平均、維度值求和等。
日志求行數:單位時間內,求日志的總行數
去重求行數:單位時間內,不重復的日志行數
維度值求平均:單位時間內,數值列(如數額、耗時、比率)的計算平均值
維度值求和:單位時間內,數值列(如數額、耗時、比率)的計算求和
維度值最大:單位時間內,數值列(如數額、耗時、比率)的計算最大值
維度值最小:單位時間內,數值列(如數額、耗時、比率)的計算最小值
六、自定義列
基于統計列的列名進行加減乘除運算,可以滿足簡單的二次計算場景,如使用成功量/總量,可以得出成功率。統計列列名作為變量,作為自定義列的計算對象。
七、告警配置
系統支持用戶自定義設置告警觸發規則和閾值,當監控采集的指標數據命中告警規則,即產生業務告警。
業務告警需要銜接【流轉規則】,配置相應的報警/事件或故障,即可納入標準應急流程體系。
一條業務監控項支持配置多條告警規則,每條告警規則可以單獨維護規則名稱、影響程度、生效時間段、觸發條件、列篩選。支持通過克隆方式,微調觸發條件,實現快速覆蓋多等級告警的能力創建。
規則名稱
系統自動生成,可以自定義命名。
影響程度
提醒、警告、嚴重、致命。
生效時間
設置告警生效的時間段,精確到時分。生效時間外,即使監控指標觸發條件也不產生告警。
觸發條件
統計列或自定義列在單位時間按取值方式,對比設定的閾值。
列篩選
按黑白名單過濾分組列列值,按過濾后的數據進行告警判斷。
應急銜接
若用戶需要實現監控→應急的閉環,在新增監控項配置后,需要跳轉【流轉規則】,并完成業務監控的接入配置,才可以實現告警產生→報警/事件/故障產生的流程閉環。
具體流轉規則配置,參見文檔:【如何配置流轉規則】