使用容器監(jiān)控Pro版
容器監(jiān)控Pro版提供基礎(chǔ)指標存儲周期90天,托管Prometheus采集器,內(nèi)置豐富的監(jiān)控大盤,提供容器服務各組件的默認告警規(guī)則,額外提供Remote Write和數(shù)據(jù)投遞能力(通過EventBridge)。
前提條件
接入時選擇容器監(jiān)控Pro版
在接入中心頁面,選擇容器集群監(jiān)控。
在容器集群監(jiān)控面板,選擇需要接入的容器服務集群,然后選擇版本為容器監(jiān)控Pro版,最后單擊確定。
基礎(chǔ)版升級為容器監(jiān)控Pro版
升級為容器監(jiān)控Pro版后不支持降級至容器監(jiān)控基礎(chǔ)版。
目前僅支持ACK集群Pro版。
在接入管理頁面,選擇已接入環(huán)境 > 容器環(huán)境。
單擊待升級的容器監(jiān)控操作列下的升級。在對話框中,單擊確認。
容器監(jiān)控Pro版支持大盤
類型 | 大盤名稱 |
監(jiān)控概覽 | 集群監(jiān)控概覽 |
集群Namespace大盤 | |
集群核心組件 | ACK Pro API server |
ACK Pro ETCD | |
ACK Pro Scheduler | |
ACK Pro Cloud Controller Manager | |
ACK Pro Kube Controller Manager | |
節(jié)點監(jiān)控 | 節(jié)點池概覽 |
集群節(jié)點監(jiān)控詳情 | |
應用監(jiān)控 | 無狀態(tài)應用監(jiān)控 |
有狀態(tài)應用監(jiān)控 | |
守護進程集應用監(jiān)控 | |
集群Pod監(jiān)控 | |
網(wǎng)絡(luò)監(jiān)控 | CoreDNS組件監(jiān)控 |
集群Ingress流量監(jiān)控 | |
存儲監(jiān)控 | CSI存儲組件監(jiān)控-集群維度 |
CSI存儲組件監(jiān)控-節(jié)點維度 | |
Pod IO Monitoring (Pod Level) | |
Frontend Storage IO Monitoring (Cluster Level) | |
GPU 監(jiān)控 | 集群GPU監(jiān)控-集群維度 |
集群GPU監(jiān)控-節(jié)點維度 | |
集群GPU監(jiān)控-應用Pod維度 | |
成本分析/資源優(yōu)化 | 資源畫像 |
其他 | Backend Storage IO Monitoring (Cluster Level) |
k8s-reclaimed-resource | |
集群Prometheus自身監(jiān)控 | |
Virtual Node(ECI) Overview |
默認告警規(guī)則
告警規(guī)則名稱/ID | 告警分組 | 模板 |
節(jié)點 CPU 使用率大于75% | 節(jié)點 | 節(jié)點 {{ $labels.instance }} CPU 使用率大于 75%,當前 CPU 使用率 {{ printf "%.2f" $value }}% |
節(jié)點 CPU 使用率大于85% | 節(jié)點 | 節(jié)點 {{ $labels.instance }} CPU 使用率大于 85%,當前 CPU 使用率 {{ printf "%.2f" $value }}% |
節(jié)點內(nèi)存使用率大于75% | 節(jié)點 | 節(jié)點 {{ $labels.instance }} 內(nèi)存使用率大于 75%,當前內(nèi)存使用率 {{ printf "%.2f" $value }}% |
節(jié)點內(nèi)存使用率大于85% | 節(jié)點 | 節(jié)點 {{ $labels.instance }} 內(nèi)存使用率大于 85%,當前內(nèi)存使用率 {{ printf "%.2f" $value }}% |
節(jié)點狀態(tài)異常 | 節(jié)點 | 節(jié)點 {{$labels.node}} 處于不可用狀態(tài)超過 10 分鐘 |
磁盤使用率大于95% | 節(jié)點 | 節(jié)點 {{ $labels.instance }} 磁盤 {{ $labels.device }} 使用率超過 95%,當前磁盤使用率 {{ printf "%.2f" $value }}% |
Deployment Pod 可用率小于50% | 工作負載 | 命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 當前不可用 Pod 數(shù) {{ $value }} |
Job 執(zhí)行失敗 | 工作負載 | 命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執(zhí)行失敗 |
Pod 啟動超時失敗 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動成功,等待原因 {{$labels.reason}} |
Pod 狀態(tài)異常 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處于{{$labels.phase}}狀態(tài)持續(xù)超過10分鐘 |
Pod 頻繁重啟 | 工作負載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內(nèi)重啟超過{{ $labels.metrics_params_value}}次,當前重啟 {{ $value }}次 |
容器 CPU 使用率超過85% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 當前值{{ printf "%.2f" $value }}% |
容器 CPU 使用率超過75% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 當前值{{ printf "%.2f" $value }}% |
容器內(nèi)存使用率超過75% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 內(nèi)存使用率大于 75%, 當前值{{ printf "%.2f" $value }}% |
容器內(nèi)存使用率超過85% | 工作負載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 內(nèi)存使用率大于 85%, 當前值{{ printf "%.2f" $value }}% |