如何排查并處理未收到報警通知的問題?
當(dāng)您已創(chuàng)建報警規(guī)則,但未收到報警通知時,請按照以下方法逐步排查,并進(jìn)行處理。
問題排查
確認(rèn)閾值報警規(guī)則觸發(fā)是否有延遲。
具體原因,請參見為什么閾值報警規(guī)則觸發(fā)延遲。
在報警歷史頁面,根據(jù)規(guī)則名稱、云產(chǎn)品、報警時間范圍等篩選出報警歷史記錄,確認(rèn)報警是否觸發(fā)。
關(guān)于如何查看報警歷史,請參見查看報警歷史。
如果找不到報警歷史記錄,則說明監(jiān)控指標(biāo)不滿足報警條件,不會發(fā)送報警通知。排查方法,請參見如何處理監(jiān)控指標(biāo)滿足報警條件但未觸發(fā)報警問題?。
如果能找到報警歷史記錄,則查看報警歷史的狀態(tài)列。
當(dāng)報警歷史的狀態(tài)為報警發(fā)生和恢復(fù)正常時,一般會發(fā)送報警通知。當(dāng)出現(xiàn)以下兩種特殊情況時,不會發(fā)送報警:
如果狀態(tài)列同時出現(xiàn)命中黑名單,說明該實例配置了報警黑名單,不會發(fā)送報警通知。
如果是容器服務(wù)Kubernetes版的報警,在一個通道沉默周期內(nèi)按照報警規(guī)則的報警級別靜默,即多個實例發(fā)生報警,也只發(fā)送一次報警通知。
當(dāng)報警歷史的狀態(tài)如下時,不發(fā)送報警通知是符合預(yù)期的,具體報警歷史狀態(tài)及其含義如下:
不在生效期:不在報警規(guī)則配置的生效時間范圍內(nèi)。
通道沉默周期:發(fā)生報警后進(jìn)入沉默周期未恢復(fù)。
不發(fā)送:報警規(guī)則配置了報警恢復(fù)時不發(fā)送恢復(fù)通知。
確認(rèn)報警聯(lián)系人和報警通知渠道是否正確。
在報警聯(lián)系人的報警聯(lián)系組頁簽,先查找報警規(guī)則中配置的報警聯(lián)系人組,再單擊其對應(yīng)的圖標(biāo),確認(rèn)是否有排班。
如果有排班,則需要根據(jù)排班表確定具體報警聯(lián)系人及其值班時間。
如果沒有排班,則單擊報警聯(lián)系人組,查看報警聯(lián)系人及其通知地址。
確定報警聯(lián)系人后,并非所有報警渠道都會有報警通知。
不同報警級別的報警通知渠道不同,例如:觸發(fā)了普通(Info)報警,一定不會有短信和電話通知。報警級別與報警渠道的具體關(guān)系如下:
緊急(Critical):電話、短信、郵件、WebHook、報警回調(diào)
警告(Warn):短信、郵件、WebHook、報警回調(diào)
普通(Info):郵件、WebHook、報警回調(diào)
通過以上步驟確定某個報警聯(lián)系人的報警通知地址應(yīng)該收到報警通知,但未收到報警通知的情況下,需要查看報警通知詳情。
在報警歷史頁面,單擊目標(biāo)報警歷史通知對象列的報警聯(lián)系人組。
在通知對象頁簽,顯示該報警聯(lián)系人組中所有報警聯(lián)系人的報警通知渠道。
將鼠標(biāo)懸浮在報警通知結(jié)果圖標(biāo)上,可以看到各個報警通知渠道返回的通知詳情。
問題處理
當(dāng)您通過以上問題排查均正常,但仍未收到報警通知時,不同報警通知渠道的可能原因和處理方法如下:
電話、短信、郵件
移動、聯(lián)動和電信等運營商的電話或短信返回失敗,具體失敗原因請查看報警歷史的通知對象中的通知詳情。
報警通知超過了每天發(fā)送限制的數(shù)量,超過后當(dāng)天無法通知。
同一手機號碼每天最多可接收1000條短信和200通電話。
同一郵箱每天最多可接收郵件1000封。
云監(jiān)控額度不足導(dǎo)致未收到報警通知。
WebHook
根據(jù)報警歷史的通知對象的通知詳情中的錯誤碼,在各通訊軟件文檔中查詢錯誤碼的具體含義或直接給各通訊軟件提工單。
例如:釘釘通知失敗詳情為
{"messageType":"DING","httpResponse":"{\"errcode\":90030,\"errmsg\":\"webhook over limit\"}","httpStatusCode":200}
,經(jīng)過查找釘釘文檔,得知原因為Webhook免費轉(zhuǎn)商業(yè)化。報警回調(diào)
根據(jù)報警歷史的通知對象的通知詳情中的錯誤碼判斷原因。常見可能原因為安全攔截、參數(shù)格式不正確等。排查方法,請參見如何排查收不到報警回調(diào)的問題?