kube-scheduler組件是Kubernetes集群的默認調度器,負責將Pod調度到合適的集群節(jié)點上運行。本文介紹kube-scheduler組件的監(jiān)控指標清單、大盤使用指導以及常見指標異常解析。
使用前須知
操作入口
指標清單
指標是組件對外透出狀態(tài)和參數的方式之一,kube-scheduler組件使用的指標清單如下。
指標清單 | 類型 | 說明 |
scheduler_scheduler_cache_size | Gauge | 調度器緩存中節(jié)點、Pod和AssumedPod(假定要調度的Pod)的數量。 |
scheduler_pending_pods | Gauge | Pending Pod的數量。隊列種類如下:
|
scheduler_pod_scheduling_attempts_bucket | Histogram | 調度器嘗試成功調度Pod的次數,Bucket閾值為 |
memory_utilization_byte | Gauge | 內存使用量。單位:字節(jié)(Byte)。 |
cpu_utilization_core | Gauge | CPU使用量。單位:核(Core)。 |
rest_client_requests_total | Counter | 從狀態(tài)值(Status Code)、方法(Method)和主機(Host)維度分析HTTP請求數。 |
rest_client_request_duration_seconds_bucket | Histogram | 從方法(Verb)和URL維度分析HTTP請求時延。 |
如下資源使用率指標已廢棄,請及時去除依賴該指標的告警和監(jiān)控。
cpu_utilization_ratio:CPU使用率。
memory_utilization_ratio:內存使用率。
大盤使用指導
大盤基于組件指標和相關PromQL繪制,大盤可觀測性展示和功能解析如下。
如果組件的常見指標異常,請對照下文的情況說明排查是否為預期內情況。如果發(fā)生非預期異常,請提交工單處理。
概覽
可觀測性展示
功能解析
指標清單 | PromQL | 說明 |
Scheduler Pending Pods | scheduler_pending_pods{job="ack-scheduler"} | Pending Pod的數量。隊列種類如下:
|
Scheduler 嘗試成功調度Pod次數 | histogram_quantile($quantile, sum(rate(scheduler_pod_scheduling_attempts_bucket{job="ack-scheduler"}[$interval])) by (pod, le)) | 調度器嘗試調度Pod的次數。Bucket閾值為 |
Scheduler 緩存數據統(tǒng)計 |
| 調度器緩存中Node、Pod和AssumedPod的數量。 |
資源
可觀測性展示
功能解析
指標清單 | PromQL | 說明 |
內存使用量 | memory_utilization_byte{container="kube-scheduler"} | 內存使用量。單位:字節(jié)。 |
CPU使用量 | cpu_utilization_core{container="kube-scheduler"}*1000 | CPU使用量。單位:毫核。 |
Kube API
可觀測性展示
功能解析
指標清單 | PromQL | 說明 |
Kube API 請求QPS |
| kube-scheduler對kube-apiserver組件發(fā)起的HTTP請求,從方法(Method)和返回值(Code) 維度分析。 |
Kube API 請求時延 | histogram_quantile($quantile, sum(rate(rest_client_request_duration_seconds_bucket{job="ack-scheduler"}[$interval])) by (verb,url,le)) | kube-scheduler對kube-apiserver組件發(fā)起的HTTP請求時延,從方法(Verb)和請求URL維度分析。 |
常見指標異常
如果組件的常見指標異常,請對照下文的情況說明排查是否為預期內情況。如果發(fā)生非預期異常,請提交工單處理。
存活調度器Pod數量
正常情況 | 異常情況 | 異常說明 | 建議 |
存活調度器Pod數量大于等于1。 | 存活調度器數量為0。 | 當前集群無可用調度器。 |
|
Pending Pod數量
正常情況 | 異常情況 | 異常說明 | 建議 |
Pod調度速度較穩(wěn)定,且維持在較低數值。 |
| 當前集群中Pod的資源請求不合理,或節(jié)點資源配置不足。 |
|
成功調度一個Pod的嘗試次數
正常情況 | 異常情況 | 異常說明 | 建議 |
Pod能夠在幾次嘗試后正常被調度到節(jié)點上。 | Pod在多次嘗試后依然無法成功調度。 | 當前集群中Pod的資源請求不合理,或節(jié)點資源配置不足。 |
|
相關文檔
關于其他集群控制面組件監(jiān)控的指標詳情、大盤使用指引和常見指標異常說明,請參見kube-apiserver組件監(jiān)控指標說明、etcd組件監(jiān)控指標說明、kube-controller-manager組件監(jiān)控指標說明、cloud-controller-manager組件監(jiān)控指標說明。