分組評估是告警監控規則中的一個參數。當告警監控系統對查詢和分析結果進行計算時,可基于特定字段進行分組,每個分組單獨評估觸發條件并觸發告警。即您可以使用一條告警監控規則同時監控多個目標,并對每個分組進行獨立的告警管理和事務管理。
設置分組評估后,單次評估產生的告警分組最多為100個分組。超過100個分組時,會隨機取其中100個發送到告警策略。
選擇分組評估字段時,請選擇具備標識監控實體特征的字段,字段的值可枚舉。請勿選擇不具備區分監控實體特征的字段。使用這些字段會產生很多分組,每個分組對應一個告警,造成告警風暴,導致錯過重要的告警信息。
例如:選擇Nginx日志中的host、method等字段,OSS訪問日志中的bucket字段。請勿選擇Nginx日志中的request_time、body_size等字段,錯誤日志中的err_cnt字段。
示例一:分組監控時序數據
例如您將多個服務器的指標數據存儲在一個時序庫中,但希望每個服務器的CPU使用率(cpu_util)超過95%時,日志服務可以分開發送每個服務器的告警信息。針對此需求,您可以在創建告警監控規則時設置分組評估。
具體配置如下:
查詢統計:
* | select promql_query_range('cpu_util') from metrics limit 1000
該查詢和分析語句用于統計CPU的使用率。
分組評估:標簽自動
時序數據的查詢和分析結果支持自動分組。
觸發條件:有數據匹配,value > 95,嚴重度:高
當查詢和分析結果中存在value的值大于95時,觸發高級別的告警。
添加標注:配置告警的標題和描述等標注信息,您可以在標注信息中引用字段變量(例如${host})。更多信息,請參見標簽和標注。
示例二:分組監控日志
例如您在監控OSS訪問日志時,希望每分鐘發生500錯誤超過1000次的Bucket可以分開告警。針對此需求,您可以在創建告警監控規則時設置分組評估。
具體配置如下:
查詢統計:
http_status=500 | select bucket,count(1) as pv group by bucket having pv >1000 order by pv desc
該查詢和分析語句用于統計發生500錯誤超過1000次的Bucket。
分組評估:標簽自定義,bucket
查詢和分析結果將根據bucket進行分組。
觸發條件:
條件1:有數據匹配,pv > 3000,嚴重度:高
當查詢和分析結果中存在pv的值大于3000時,觸發高級別的告警。
條件2:有數據,嚴重度:中
當查詢和分析結果中存在數據時觸發中級別的告警。
添加標注:配置告警的標題和描述等標注信息,您可以在標注信息中引用字段變量(例如${pv})。更多信息,請參見標簽和標注。