為了不錯失重要通知,建議您對重要的監控指標設置報警規則。當云數據庫 Tair(兼容 Redis)實例的性能指標(CPU、內存使用率等)異常或實例觸發高可用切換時,云監控平臺會向您發送警告信息。
背景信息
云監控(CloudMonitor)是針對阿里云資源和互聯網應用提供監控的服務,為您提供開箱即用的企業級開放型一站式監控解決方案。您可以創建報警規則、設置監控項,在監控項的報警規則被觸發時,云監控將通知報警聯系組中的所有聯系人。
報警聯系人和聯系組是云監控發送報警通知的基礎。您需要先創建報警聯系人和報警聯系組,并將報警聯系人添加到報警聯系組。具體操作,請參見創建報警聯系人或報警聯系人組。
操作步驟
訪問實例列表,在上方選擇地域,然后單擊目標實例ID。
在左側導航欄,單擊報警設置。
在報警設置頁面,查看當前實例的監控項。
您也可以單擊頁面右上方報警設置,進入云監控控制臺,添加或管理報警規則。配置方法說明:
創建報警規則:當監控項超過設定閾值時(例如實例的CPU使用率大于90%),系統將自動發送報警通知,幫助您及時了解監控數據異常并處理。
說明在創建報警規則時請選擇以下對應產品:
Tair內存型和Redis開源版:Redis/Tair內存型(標準版)、Redis/Tair內存型(集群版)、Redis/Tair內存型(讀寫分離版)。
Tair持久內存型:Tair持久內存型(標準版)、Tair持久內存型(集群版)、Tair持久內存型(讀寫分離版)。
通常情況下,業務對實例的CPU、內存和網絡流量的波動比較敏感,建議為下述關鍵指標設置報警閾值:
CPU使用率:大于60%。
內存使用率:大于80%。
流入帶寬使用率和流出帶寬使用率:大于80%。
云監控平臺支持的監控指標請參見附錄1 云產品監控指標。
訂閱事件通知:當實例產生了主動運維事件(如實例遷移)、實例發生了故障或觸發了高可用切換,系統將自動發送報警通知,幫助您及時接收報警通知并處理。包含InstanceMaintenance(主動運維事件)、實例異常、實例維護等。
常見問題
報警設置中的監控指標“阻塞客戶端連接數”是什么意思?
創建報警規則中的監控指標Node/阻塞客戶端連接數是指實例使用了阻塞式請求,例如BRPOP、BLPOP、BZPOPMIN、BZPOPMAX與XREAD等,并處于阻塞(等待)中的客戶端連接數。