ARMS Prometheus告警支持在釘釘群的告警卡片中增加指標走勢圖的展示。通過展示指標走勢圖可以獲取更多關于該告警的信息,從而有助于排查和定位問題。本文主要介紹如何配置Prometheus告警才能在通知卡片中增加指標走勢圖。
前提條件
使用限制
僅支持在釘釘群的告警卡片中增加指標走勢圖的展示。
配置指標走勢圖
- 登錄ARMS控制臺。
在左側導航欄,選擇 。
在Prometheus告警規則頁面:
如果需要在已有告警中配置指標走勢圖,在需要增加指標走勢圖的告警規則右側,單擊編輯。
如果需要在新建告警中配置指標走勢圖,單擊頁面右上角的創建Prometheus告警規則。
在編輯或創建頁面,執行以下操作:
在告警通知區域選擇普通模式,然后選擇通知人為釘群的通知策略。
展開高級設置,在注釋區域,單擊創建注釋,增加以下兩個注釋。
鍵
值
示例
_aliyun_display_promql
用于展示指標走勢圖的查詢PromQL語句,通常情況下是告警PromQL去掉閾值判斷之后的語句。 例如:
cpu_usage > 80
需要改為cpu_usage
。_aliyun_display_promql:cpu_usage
_aliyun_display_name
指標走勢圖中指標的名稱。
_aliyun_display_name:容器CPU使用率
根據需要修改其他參數,其他參數的說明,請參見Prometheus告警規則。
單擊保存。然后單擊完成。
查看指標走勢圖
配置完成后,當有告警觸發時,在客戶端釘釘群的告警卡片中查看指標走勢圖。
告警卡片中的其他信息,請參見在告警通知群中處理告警。
常見問題
為什么不使用告警的PromQL來獲取指標走勢圖,還需要人為配置?
用于告警的PromQL和用戶展示圖表的PromQL不完全相同(包含閾值判斷,與、或邏輯等),在指標展示的PromQL中需要刪除這部分內容。
為什么配置了_aliyun_display_promql仍然無法展示圖片?
_aliyun_display_promql與報警PromQL查詢出的內容需要滿足標簽完全一致才能渲染圖表。通常一個PromQL可以查出多條時間序列,告警需要根據標簽篩選出其中一條時間序列來渲染走勢圖。例如
cpu_usage > 80
查出來的指標中包含了pod_name、container 2個標簽,那么對應的_aliyun_display_promql查詢結果也需要包含這兩個標簽。