通過創(chuàng)建閾值檢測告警規(guī)則,您可以制定針對特定應用的告警規(guī)則。當告警規(guī)則被觸發(fā)時,系統(tǒng)會以您指定的通知方式向告警聯(lián)系人或釘群發(fā)送告警信息,以提醒您采取必要的解決措施。
前提條件
已將應用數(shù)據上報至可觀測鏈路 OpenTelemetry 版,具體操作,請參見接入指南。
配置閾值檢測
在左側導航欄中選擇
。在告警規(guī)則頁面單擊創(chuàng)建告警規(guī)則。
在創(chuàng)建告警規(guī)則頁面自定義告警名稱,并選擇告警檢測類型為閾值檢測。
在告警對象區(qū)域根據需求選擇對應的告警應用、指標類型和篩選條件。
參數(shù)
說明
告警應用
選擇需要檢測的應用??梢赃x擇多個應用或全部應用。
新建應用時自動在此告警規(guī)則中追加
是否將之后接入的應用自動接入當前告警。
指標類型
選擇需要檢測的指標類型。更多信息,請參見告警規(guī)則指標說明。
說明不同的指標類型,告警規(guī)則的條件字段和篩選條件不同。
篩選條件
針對指標進行進一步的篩選過濾以縮短監(jiān)控范圍。
告警指標的維度:
遍歷:會在告警內容中透出實際觸發(fā)告警的維度內容。
無維度:告警內容中透出這個維度所有數(shù)值的和。
= :告警中只透出當前設置維度的內容。
!=:告警中只透出不等于設置維度的內容。
包含:告警中只透出包含設置維度的內容。
不包含:告警中只透出不包含設置維度的內容。
正則匹配:告警中只透出正則匹配設置維度的內容。
在告警規(guī)則區(qū)域選擇告警觸發(fā)模式并設置告警條件。
參數(shù)
說明
告警觸發(fā)模式
單條件:滿足下述的規(guī)則就會觸發(fā)告警。
多條件:選擇告警觸發(fā)規(guī)則。
同時滿足下述規(guī)則:需滿足所有告警條件才會觸發(fā)告警。
滿足下述一條規(guī)則:滿足任意一條告警條件就會觸發(fā)告警。
告警條件
單條件:
設置告警規(guī)則表達式,可以根據設定不同閾值對應不同嚴重程度的告警。
告警嚴重程度從P4、P3、P2、P1逐級上升,您可以按需填寫對應等級的閾值,無需對所有告警等級都設置閾值。
示例1:最近5分鐘JVM FullGC次數(shù)平均大于1次,觸發(fā)P4等級告警;大于2次,觸發(fā)P3等級告警;大于5次,觸發(fā)P2等級告警;大于10次,觸發(fā)P1等級告警。
示例2:最近5分鐘JVM FullGC次數(shù)平均大于1次,觸發(fā)P4等級告警。
多條件:
單擊添加條件,設置告警規(guī)則表達式。
例如:
告警觸發(fā)規(guī)則:同時滿足下述規(guī)則
條件1:最近2分鐘,調用錯誤率平均值大于等于5%。
條件2:最近2分鐘,調用次數(shù)大于等于200。
多條件模式下還需設置對應的告警等級,告警嚴重程度從P4、P3、P2、P1逐級上升。
填入P4建議閾值
可以根據閾值與指標的對比圖調節(jié)閾值。當該規(guī)則對多個應用生效時,可以單擊應用右側圖標,對不同應用生成不同的建議閾值。
ARMS通過智能算法根據指標歷史水位為您推薦建議閾值。更多信息,請參見建議閾值說明。
告警數(shù)預測
查看選定時間段內指標預計超出閾值的次數(shù),單擊具體的告警數(shù)值,可以查詢歷史時間點觸發(fā)告警的指標數(shù)值。
每一次新建或修改告警規(guī)則時,都推薦您使用告警數(shù)預測功能,該功能通過算法對歷史數(shù)據進行分析,對選定時間段內進行告警數(shù)預測,方便您調整閾值。更多信息,請參見告警數(shù)預測功能說明。
設置告警通知和高級告警設置。
參數(shù)
說明
告警通知
極簡模式
通知對象:創(chuàng)建通知對象的操作,請參見告警通知對象。
通知時段:選擇告警通知時間段。
重復策略:
不需要升級策略,告警未恢復狀態(tài)下只發(fā)送一次。
設置重復頻率。當告警未恢復時,告警會以設置的重復頻率循環(huán)發(fā)送告警信息直至告警恢復。
普通模式
通知策略:
不指定通知規(guī)則:告警被觸發(fā)時不會發(fā)送告警,僅當通知策略的匹配規(guī)則被觸發(fā)時才會發(fā)送告警。
指定通知規(guī)則發(fā)送告警:告警被觸發(fā)時,ARMS通過指定通知策略的通知方式發(fā)送告警信息。您可以選擇已有的通知策略,也可以新建一個通知策略。更多信息,請參見通知策略。
高級告警設置
無數(shù)據情況
用于無數(shù)據、復合指標和環(huán)比同比等異常數(shù)據的修復。當告警指標沒有達到設置的條件時,告警數(shù)據修復為0、1或不觸發(fā)告警。
更多詳細信息,請參見告警管理名詞解釋。
設置完成后單擊保存。
建議閾值說明
建議閾值功能可以根據您選擇的應用、接口和告警指標,通過智能算法對該指標的歷史數(shù)據進行分析,為您推薦較為合理的靜態(tài)閾值。該功能還支持實時生成指標和閾值的對比圖,方便您調節(jié)閾值。
應用場景
當您發(fā)現(xiàn)經常收到某條告警,但是系統(tǒng)又沒有發(fā)生任何故障時,可能是因為當前的閾值設置得不夠合理,或者是該閾值不適合某些應用或接口。這種場景下,您可以使用建議閾值功能,對告警規(guī)則的閾值進行調整,或對部分應用、接口的閾值進行調整,ARMS會自動根據歷史數(shù)據為您推薦合理的新閾值。
當您需要對大量應用、接口的某一指標配置告警,但是不同應用,不同接口適合的告警閾值又不同時,可以使用建議閾值功能。您無需手動為每一個應用/接口設置告警閾值,建議閾值功能通過智能算法可以幫您快速完成設置。
實現(xiàn)原理
當您單擊填入P4建議閾值后,ARMS就會自動拉取每個應用、每個接口對應指標的歷史3天數(shù)據,然后通過N-sigma算法計算每個指標歷史3天的均值和方差。具體來說,假設您的業(yè)務沒有發(fā)生明顯變化,因此可以假設指標服從一個正態(tài)分布,那么,指標偏離期望3倍標準差的概率很小?;谶@個原理,根據歷史3天該指標的平均水位與波動情況,即可給出一個建議閾值。
告警等級中,P4表示最不嚴重的告警,這個建議閾值僅表示指標有些許異常,您可以根據P4建議閾值,設置P1、P2、P3等更嚴重的告警閾值。
告警數(shù)預測功能說明
告警數(shù)預測功能通過算法對歷史數(shù)據進行分析,從而實現(xiàn)在選定時間段內對告警數(shù)進行預測,并展示歷史告警發(fā)生的時刻。幫助您設置告警靜態(tài)閾值或調整區(qū)間檢測的告警靈敏度。
告警數(shù)預測原理
ARMS會根據指標歷史24h數(shù)據,計算指標會超出每個閾值的次數(shù)來預測在該設定下告警的數(shù)量。并且,ARMS提供了指標詳細信息,您可以看到指標實際值超出閾值的具體時間。您可以根據這些信息調整閾值,以適配實際業(yè)務需求。