如何處理監(jiān)控指標滿足報警條件但未觸發(fā)報警問題?
當您的某個監(jiān)控指標達到報警閾值,但未觸發(fā)報警時,請按照以下步驟排查。
背景信息
每個報警條件都是一個有固定閾值的表達式,其中包括監(jiān)控指標、報警級別、周期和閾值。監(jiān)控指標中的周期(period)是指監(jiān)控指標數(shù)據(jù)點的間隔時間和聚合時間,例如:大多數(shù)監(jiān)控指標的周期(period)=60秒,表示每60秒產(chǎn)生一個數(shù)據(jù)點,這個監(jiān)控數(shù)據(jù)是過去60秒所有監(jiān)控值的聚合值。報警的檢測周期由周期(period)決定,對于多指標表達式且周期(period)不同的情況,以最短的周期(period)為準。
每個監(jiān)控指標的聚合方式不同,具體請參見附錄1 云產(chǎn)品監(jiān)控指標中的目標云產(chǎn)品指標列表頁面中的Statistics列。如果報警規(guī)則配置的Statistics不是對應指標的Statistics,規(guī)則狀態(tài)是正常,不會告警。
每個監(jiān)控指標的周期(period)不同,具體請參見附錄1 云產(chǎn)品監(jiān)控指標中的目標云產(chǎn)品指標列表頁面中的Min Periods列。
操作步驟
本文以ECS實例的CPU使用率連續(xù)3個周期的最大值大于等于90%為例進行介紹。
查看CPU使用率的監(jiān)控數(shù)據(jù),特別是監(jiān)控指標的最大值和周期(period)。
關(guān)于如何查看其他云產(chǎn)品監(jiān)控數(shù)據(jù),請參見查看監(jiān)控數(shù)據(jù)。
登錄云監(jiān)控控制臺。
在左側(cè)導航欄,單擊
。在主機監(jiān)控頁面,單擊目標主機名稱或?qū)?b data-tag="uicontrol" id="b8fcea1a83q12" class="uicontrol">操作列的監(jiān)控圖表。
在基礎(chǔ)監(jiān)控頁簽,查看CPU使用率的監(jiān)控圖表,確認其最大值和周期(period)。
查看CPU使用率的最新閾值報警規(guī)則,再次確認是否達到報警條件。
在左側(cè)導航欄,選擇
。在報警規(guī)則頁面,篩選出目標報警規(guī)則,單擊操作列的詳情。
在詳情頁簽,查看報警條件(重點關(guān)注閾值和周期)、生效時間、報警狀態(tài)和關(guān)聯(lián)資源。當目標ECS實例的CPU使用率連續(xù)3個周期的最大值大于等于90%時,達到報警條件,同時需要確保報警狀態(tài)正常,且在生效范圍內(nèi),即可觸發(fā)報警。
查看目標ECS實例是否在報警黑名單中。
在左側(cè)導航欄,選擇 。
在報警黑名單頁面,查看所有黑名單策略是否包含目標ECS實例。
對于容器服務Kubernetes版,其報警規(guī)則的通道沉默周期是規(guī)則級的,例如:當通道沉默周期為24小時,某個容器組(pod)發(fā)生一次普通報警后,其他容器組(pod)將在24小時內(nèi)不會發(fā)送報警通知。當容器組(pod)的報警級別發(fā)生變化時,會觸發(fā)一次報警。