當需要故障排查時,可以通過集群信息頁面提供的巡檢信息、相關云資源、集群資源監控等信息來快速定位和解決問題。本文介紹如何查看集群信息以及集群信息項。
前提條件
已創建ACS集群。
操作步驟
登錄容器計算服務控制臺,在左側導航欄選擇集群。
在集群頁面,單擊目標集群ID,然后在左側導航欄,選擇集群信息。
在集群信息頁面,單擊不同頁簽,可以查看不同維度的信息。
頁簽
說明
概覽
選擇要查看的命名空間,查看應用狀態、組件狀態和資源監控圖表等內容。
應用狀態:顯示當前運行的部署、容器組、有狀態副本集等應用狀態的示意圖,綠色圖標代表正常,黃色圖標代表異常。
集群風險預警:自動掃描Kubernetes集群,提示您潛在的風險和對應的解決方案,防止您的業務受損。
事件:顯示集群的事件信息,例如警告和錯誤事件等。
資源監控:提供CPU和內存的監控圖表。CPU統計單位為Cores(核),可顯示小數點后3位,最小統計單位是millcores,即一個核的1/1000;內存的統計單位是Gi,可顯示小數點后3位。更多相關信息,請參見Meaning of CPU和Meaning of memory。
基本信息
基本信息:集群ID、狀態、地域。
集群信息:API Server連接端點、Service CIDR、RRSA OIDC、自定義證書SAN。
集群維護:配置集群維護窗口。
連接信息
獲取公網和內網環境下KubeConfig文件的配置內容,用于配置通過kubectl客戶端訪問集群。
說明創建集群時未勾選API Server 訪問配置只可以看到內網環境下KubeConfig文件的配置內容。
集群資源
集群所使用的相關云資源,包括專有網絡VPC、節點虛擬交換機、安全組、日志服務Project、API Server負載均衡(SLB)等。通過單擊相應的資源ID可以跳轉至對應的控制臺。
重要這些資源由阿里云容器計算服務進行管理,請勿隨意刪除或自行修改,避免集群異常,影響集群內應用的正常運行。
集群監控
對接可觀測監控 Prometheus 版,對集群進行資源監控,支持快速查看負載的CPU、內存、網絡等指標的使用率,帶來更專業的監控與報警能力和更合適的容器場景指標。更多信息,請參見使用阿里云Prometheus監控ACS集群狀態。
集群日志
集群的運行日志。
任務日志
查看集群任務、任務狀態、變更時間等。失敗任務將提示失敗信息,方便協助問題的排查和診斷。