使用容器監(jiān)控Pro版
容器監(jiān)控Pro版提供基礎(chǔ)指標(biāo)存儲(chǔ)周期90天,托管Prometheus采集器,內(nèi)置豐富的監(jiān)控大盤,提供容器服務(wù)各組件的默認(rèn)告警規(guī)則,額外提供Remote Write和數(shù)據(jù)投遞能力(通過EventBridge)。
前提條件
接入時(shí)選擇容器監(jiān)控Pro版
在接入中心頁面,選擇容器集群監(jiān)控。
在容器集群監(jiān)控面板,選擇需要接入的容器服務(wù)集群,然后選擇版本為容器監(jiān)控Pro版,最后單擊確定。
基礎(chǔ)版升級(jí)為容器監(jiān)控Pro版
升級(jí)為容器監(jiān)控Pro版后不支持降級(jí)至容器監(jiān)控基礎(chǔ)版。
目前僅支持ACK集群Pro版。
在接入管理頁面,選擇已接入環(huán)境 > 容器環(huán)境。
單擊待升級(jí)的容器監(jiān)控操作列下的升級(jí)。在對(duì)話框中,單擊確認(rèn)。
容器監(jiān)控Pro版支持大盤
類型 | 大盤名稱 |
監(jiān)控概覽 | 集群監(jiān)控概覽 |
集群Namespace大盤 | |
集群核心組件 | ACK Pro API server |
ACK Pro ETCD | |
ACK Pro Scheduler | |
ACK Pro Cloud Controller Manager | |
ACK Pro Kube Controller Manager | |
節(jié)點(diǎn)監(jiān)控 | 節(jié)點(diǎn)池概覽 |
集群節(jié)點(diǎn)監(jiān)控詳情 | |
應(yīng)用監(jiān)控 | 無狀態(tài)應(yīng)用監(jiān)控 |
有狀態(tài)應(yīng)用監(jiān)控 | |
守護(hù)進(jìn)程集應(yīng)用監(jiān)控 | |
集群Pod監(jiān)控 | |
網(wǎng)絡(luò)監(jiān)控 | CoreDNS組件監(jiān)控 |
集群Ingress流量監(jiān)控 | |
存儲(chǔ)監(jiān)控 | CSI存儲(chǔ)組件監(jiān)控-集群維度 |
CSI存儲(chǔ)組件監(jiān)控-節(jié)點(diǎn)維度 | |
Pod IO Monitoring (Pod Level) | |
Frontend Storage IO Monitoring (Cluster Level) | |
GPU 監(jiān)控 | 集群GPU監(jiān)控-集群維度 |
集群GPU監(jiān)控-節(jié)點(diǎn)維度 | |
集群GPU監(jiān)控-應(yīng)用Pod維度 | |
成本分析/資源優(yōu)化 | 資源畫像 |
其他 | Backend Storage IO Monitoring (Cluster Level) |
k8s-reclaimed-resource | |
集群Prometheus自身監(jiān)控 | |
Virtual Node(ECI) Overview |
默認(rèn)告警規(guī)則
告警規(guī)則名稱/ID | 告警分組 | 模板 |
節(jié)點(diǎn) CPU 使用率大于75% | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{ $labels.instance }} CPU 使用率大于 75%,當(dāng)前 CPU 使用率 {{ printf "%.2f" $value }}% |
節(jié)點(diǎn) CPU 使用率大于85% | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{ $labels.instance }} CPU 使用率大于 85%,當(dāng)前 CPU 使用率 {{ printf "%.2f" $value }}% |
節(jié)點(diǎn)內(nèi)存使用率大于75% | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{ $labels.instance }} 內(nèi)存使用率大于 75%,當(dāng)前內(nèi)存使用率 {{ printf "%.2f" $value }}% |
節(jié)點(diǎn)內(nèi)存使用率大于85% | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{ $labels.instance }} 內(nèi)存使用率大于 85%,當(dāng)前內(nèi)存使用率 {{ printf "%.2f" $value }}% |
節(jié)點(diǎn)狀態(tài)異常 | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{$labels.node}} 處于不可用狀態(tài)超過 10 分鐘 |
磁盤使用率大于95% | 節(jié)點(diǎn) | 節(jié)點(diǎn) {{ $labels.instance }} 磁盤 {{ $labels.device }} 使用率超過 95%,當(dāng)前磁盤使用率 {{ printf "%.2f" $value }}% |
Deployment Pod 可用率小于50% | 工作負(fù)載 | 命名空間: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 當(dāng)前不可用 Pod 數(shù) {{ $value }} |
Job 執(zhí)行失敗 | 工作負(fù)載 | 命名空間: {{$labels.namespace}}/Job: {{$labels.job_name}} 執(zhí)行失敗 |
Pod 啟動(dòng)超時(shí)失敗 | 工作負(fù)載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超過15分鐘未啟動(dòng)成功,等待原因 {{$labels.reason}} |
Pod 狀態(tài)異常 | 工作負(fù)載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 處于{{$labels.phase}}狀態(tài)持續(xù)超過10分鐘 |
Pod 頻繁重啟 | 工作負(fù)載 | 命名空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分鐘內(nèi)重啟超過{{ $labels.metrics_params_value}}次,當(dāng)前重啟 {{ $value }}次 |
容器 CPU 使用率超過85% | 工作負(fù)載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 當(dāng)前值{{ printf "%.2f" $value }}% |
容器 CPU 使用率超過75% | 工作負(fù)載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 當(dāng)前值{{ printf "%.2f" $value }}% |
容器內(nèi)存使用率超過75% | 工作負(fù)載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 內(nèi)存使用率大于 75%, 當(dāng)前值{{ printf "%.2f" $value }}% |
容器內(nèi)存使用率超過85% | 工作負(fù)載 | 命名空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 內(nèi)存使用率大于 85%, 當(dāng)前值{{ printf "%.2f" $value }}% |