本文列出了SAE告警管理的主要術語。
B
補零、補一、補Null
- 報警數據修訂策略可選擇為補零、補一或補Null(默認)。此功能一般用于無數據、復合指標和環(huán)比同比等異常的數據修復。
- 補零: 將被判斷的數值修復為0。
- 補一: 將被判斷的數值修復為1。
- 補Null: 不會觸發(fā)報警。
應用場景:- 異常情況一:無數據
用戶A想利用報警功能監(jiān)控頁面訪問量。創(chuàng)建報警時,選擇前端監(jiān)控報警,設置報警規(guī)則為N=5時頁面訪問量的總和小于等于10則報警。若該頁面一直沒有被訪問,則沒有數據上報,不會發(fā)送報警。為解決此類問題,可將報警數據修訂策略勾選為補零,將沒有收到數據視為收到零條數據,符合報警規(guī)則,即可發(fā)送報警。
- 異常情況二:復合指標異常
用戶B想利用報警功能監(jiān)控商品的實時單價。創(chuàng)建報警時,選擇自定義監(jiān)控報警,設置變量a的數據集為當前總價,變量b的數據集為當前商品總數,報警規(guī)則為N=3時 (當前總價)/(當前商品總數)的最小值小于等于10則報警。若當前商品總數為0時,復合指標(當前總價)/(當前商品總數)的值不存在,則不會發(fā)送報警。為解決此類問題,可將報警數據修訂策略勾選為補零,將復合指標(當前總價)/(當前商品總數)的值視為0,符合報警規(guī)則,即可發(fā)送報警。
- 異常情況三:指標環(huán)比、同比異常
用戶C想利用報警功能監(jiān)控節(jié)點機用戶使用CPU百分比。創(chuàng)建報警時,選擇應用監(jiān)控,設置報警規(guī)則為N=3時節(jié)點機用戶使用CPU百分比的平均值環(huán)比下降100%則報警。若最近N分鐘用戶的CPU故障無法工作,即α無法獲取,導致環(huán)比結果不存在,則不會發(fā)送報警。為解決此類問題,可將報警數據修訂策略勾選為補一,將環(huán)比結果視為下降100%,符合報警規(guī)則,即可發(fā)送報警。
C
重復升級規(guī)則
- 如果升級策略判斷過所有升級規(guī)則后,仍未解決告警,則將重新開始升級判斷。默認為重復1次,您也可以將其調整為9以內的其他次數。
G
告警
- 指需要通知聯系人去解決的告警。只有通過通知策略觸發(fā)的需要解決的事件,才會創(chuàng)建告警。
告警管理
- 指整個告警管理功能。
告警卡片
- 釘釘群的機器人通過卡片的形式向釘釘群發(fā)送告警。聯系人可以通過卡片查看、處理、解決告警。您可以在控制臺的釘群中配置釘釘群的機器人。
告警自動解決
- 當告警的事件都已恢復時,告警會自動設置為已解決。
故障
- 業(yè)務的規(guī)則會引起監(jiān)控數據異常,監(jiān)控工具檢測到異常后會生成事件。
H
環(huán)比上升 / 下降%
- 若β為最近N分鐘的數據(可選擇為平均值、總和、最大值和最小值),α為前2N分鐘到前N分鐘的數據, 環(huán)比為β與α做比較。
J
集成
- 大多數監(jiān)控產品可以通過API方式集成到告警管理中。
L
聯系人
- 處理告警的運維人員,聯系人可以通過釘釘查看、處理和解決告警。
R
認領告警
- 如果聯系人想將自己設置為尚未解決的告警的處理人,則可以認領該告警。
S
升級超時
- 升級超時后,告警管理會將未確認或未解決的告警通知升級策略的聯系人。默認升級超時設置為10分鐘,您也可以將其設置在90分鐘內的任一時間。
升級策略
- 在告警升級超時,告警管理會依次通知升級規(guī)則定義的不同批次的聯系人。升級策略可以添加到特定的通知策略中。
事件
- 集成的監(jiān)控產品會將事件發(fā)送到告警管理中。除非事件被抑制,否則每個事件都會有對應告警。
事件分組
- 事件管理將多個事件匯總到單一告警中,用來減少需要聯系人處理的告警。同時匯總關鍵信息,降低通知疲勞。
事件靜默
- 不重要的事件可以將其靜默,被靜默的事件沒有對應的告警。
事件去重
- 當集成將事件發(fā)送到告警管理時,重復的事件會合并到一個事件中,僅統(tǒng)計重復次數。
事件自動恢復
- 您可以設置在指定的時間后自動恢復事件。此時間過后,事件將自動被認定為已解決。事件自動恢復時間默認為5分鐘。
T
同比上升 / 下降%(與上小時)
- 若β為最近N分鐘的數據(可選擇為平均值、總和、最大值和最小值),α為上小時最近N分鐘的數據,與上小時同比為β與α做比較。
同比上升 / 下降%(與昨日)
- 若β為最近N分鐘的數據(可選擇為平均值、總和、最大值和最小值),α為昨日同一時刻最近N分鐘的數據,與昨日同比為β與α做比較。
通知
- 觸發(fā)告警后,告警管理會立即發(fā)送通知給聯系人。通知消息中包含觸發(fā)的告警對象和告警標題。通知將通過短信、郵件、微信、釘群、WebHook等方式發(fā)送。
通知策略
- 通知策略確定了如何將事件匯總到單一告警中,以及如何將分配的告警通知發(fā)送給聯系人。您可以通過設置電話,短信,郵件或釘群等方式,將需要解決或需要聯系人知曉的告警1分鐘內通知到他。
Y
用戶
- 指阿里云用戶和RAM用戶,用戶可以通過SAE控制臺實現以下操作:
- 創(chuàng)建、編輯、修改通知策略。
- 創(chuàng)建、編輯、修改升級策略。
- 創(chuàng)建、編輯、修改集成。
- 查看、處理、解決告警。
- 指阿里云用戶和RAM用戶,用戶可以通過SAE控制臺實現以下操作: