本文介紹如何配置默認告警。
操作步驟
登錄MSE注冊配置中心管理控制臺,并在頂部菜單欄選擇地域。
在左側導航欄,選擇注冊配置中心 > 實例列表。
在實例列表頁面,單擊目標實例操作列下的更多 > 配置默認告警。
在配置默認告警對話框,選擇告警聯系人分組,然后單擊確定。
單擊確定后,將自動添加以下默認告警規則。
集群類型
集群版本
告警名稱
說明
解決方案
注冊配置中心通用
基礎版、開發版、專業版
集群CPU使用率過高
集群節點CPU使用率超過80%
集群版本缺陷或容量不足,請檢查風險管理中的風險項并根據建議解決,如果風險解決后仍未恢復告警,請擴容。
集群內存使用率過高
集群節點內存使用率超過90%
ZooKeeper
基礎版、開發版、專業版
ZooKeeper CMS Gc次數過多
一分鐘內集群CMS Gc次數超過5次
ZooKeeper CMS Gc時間過長
一分鐘內CMS Gc總時間超過6s
Serverless
Snapshot限流
Snapshot大小超過20M,接近25M限制值
集群最大支持25M Snapshot,如果需要更大空間,請提工單。
Nacos
基礎版、開發版、專業版
Nacos Full Gc次數過多
一分鐘內集群Full Gc次數超過2次
集群容量不足,請檢查使用的客戶端的方式是否有誤,造成連接泄漏/重復注冊/重復訂閱等問題。如果沒有,請及時擴容或升配。
Nacos Full Gc時間過長
一分鐘內集群Full Gc時間超過5s
基礎版、開發版、專業版、Serverless
Nacos服務使用率過高
服務數使用率超過90%
Nacos服務提供者使用率過高
服務提供者數使用率超過90%
Nacos連接數使用率過高
連接數使用率超過90%
Nacos配置數使用率過高
配置數使用率超過90%
Nacos配置長輪詢使用率過高
配置長輪詢使用率超過90%
Nacos服務提供者比例環比下跌過高
比較當前時間和3分鐘前的Nacos集群服務提供者數,發現Nacos集群服務提供者下跌超過50%,可能導致業務上游服務無法找到下游服務提供者
檢測到短時間內大批量服務掉線,疑似應用存在故障或大規模發布,請檢查業務應用是否正處于變更發布中。如果不是,請檢查業務應用的CPU、內存使用、GC、網絡等資源是否健康。
Serverless
TPS限流事件
集群觸發TPS限流
服務容量限制事件
集群觸發服務容量限制
連接數量限制事件
集群觸發連接數限制
配置容量限制事件
集群觸發配置容量限制
Ingress
專業版
集群CPU使用率過高
集群CPU使用率超過80%
集群容量不足,請檢查是否存在插件內存泄漏/邏輯錯誤等問題。如果沒有,請及時擴容。
集群內存使用率過高
集群內存使用率超過80%
專業版、Serverless
網關整體正確率異常
網關整體正確率低于80%
網關正確率異常,請檢查網關配置以及業務是否異常。
網關自定義插件出現異常,已經自動恢復
網關自定義插件異常,已自動恢復
插件崩潰,請檢查插件邏輯。