本文介紹日志服務告警監控規則的常見問題。
是否支持動態設置不同告警嚴重度?
支持。您可以在配置告警監控規則時,根據不同條件設置告警嚴重度。更多信息,請參見設置告警嚴重度。
是否支持無數據告警?
支持。您可以在配置告警監控規則時,開啟無數據告警功能,并配置獨立的嚴重度等信息。更多信息,請參見無數據告警。
是否支持告警自動恢復檢測機制?
支持。您可以在配置告警監控規則時,開啟告警恢復功能。更多信息,請參見設置恢復通知。
一條告警監控規則是否支持給不同目標發送告警通知?
支持。您可以在配置告警監控規則時,開啟分組評估功能。更多信息,請參見設置分組評估。
是否支持臨時關閉告警監控規則?
支持。您可以在告警規則頁面,操作列單擊關閉。
使用RAM用戶操作告警時,如何為RAM用戶授權?
當您使用RAM用戶操作告警時,需要先授予RAM用戶告警操作權限。具體操作,請參見授予RAM用戶告警操作權限。
創建告警監控規則時,遇到Alert count exceeds the maximum limit錯誤,如何處理?
如果您在創建告警監控規則時,系統出現Alert count exceeds the maximum limit
錯誤,表示該Project下的告警監控規則超過了最大限制(默認100個)。您可以提工單申請擴容至200個。
單個Project中最大可擴容至200個,如果您還需要創建更多的告警監控規則,可考慮如下優化方案。
刪除該Project下無用的告警監控規則。
將日志采集到不同的Project中,減少單個Project下的告警監控規則數量。
例如將服務A的日志采集到Project1中,將服務B的日志采集到Project2中,則您可以在不同的Project中創建告警監控規則。
合并相似的告警監控規則。
例如監控同一個Logstore中的數據時,您可以只創建一個告警監控規則,通過分組評估實現使用一條告警監控規則同時監控多個目標。更多信息,請參見設置分組評估。
通過數據加工或定時SQL將數據存儲到一個Logstore后再創建告警監控規則。
例如您要監控多個Logstore中的錯誤日志,則可以將所有的錯誤日志存儲到一個Logstore中,然后基于該Logstore創建一個告警監控規則。
如何基于關鍵字設置告警?
將日志采集到日志服務后,您可以通過日志服務告警系統實現基于日志關鍵字的告警。具體操作,請參見基于日志關鍵字設置告警。
如何監控不同的對象?
在某些情況下,您無法提前知道目標字段的所有取值,但需要監控該字段在任意取值時是否滿足告警觸發條件,那么就可以使用分組評估功能,選擇該字段作為標簽進行分組,每個分組單獨評估告警的觸發條件。更多信息,請參見設置分組評估。
例如,您將多個服務器的指標數據存儲在一個時序庫中,但希望每個服務器的CPU使用率(cpu_util)超過95%時,日志服務可以分開發送每個服務器的告警信息,則可以使用分組評估。
為什么設置了多個觸發條件,只有一個生效?
查詢統計結果按照觸發條件的順序逐條匹配,當查詢統計結果符合第一個觸發條件后,不再匹配后面的觸發條件。因此當您設置觸發條件中的嚴重度時,需從較高級別的嚴重度開始配置。具體操作,請參見設置告警嚴重度。
為什么出現漏告警或者誤告警?
漏告警:例如告警觸發條件是錯誤日志數大于10就觸發告警,而在Logstore查詢分析頁面查詢時某個時間段內錯誤日志數實際大于10 ,卻沒有觸發告警。
誤告警:例如告警觸發條件是QPS低于100就觸發告警,而在Logstore查詢分析頁面查詢時某個時間段內QPS實際大于100,卻觸發了告警。
出現漏告警或者誤告警,一般是由于數據寫入到Logstore到可查詢存在一定的延遲,當告警監控規則中的查詢時間范圍設置為相對時間時,會導致告警的查詢不完全準確。為了避免這兩種情況,建議擴大告警監控規則中的查詢時間范圍或者將查詢時間范圍設置為整點時間。更多信息,請參見監控時效性說明。
在告警歷史圖表中,當是否觸發告警為true,原因為Notify threshold not reached時,如何處理?
如果告警歷史統計儀表盤的告警歷史圖表中,是否觸發告警顯示為true,而原因顯示為Notify threshold not reached,表示您在告警監控規則中設置了連續觸發閾值,而此次觸發還未達到連續觸發閾值。例如設置連續觸發閾值為3次,那么連續3次都滿足觸發條件,才會真正觸發告警。