容器智能運維平臺提供集群巡檢功能。您可以掃描集群運行狀況,發現集群中存在的潛在風險,例如云資源配額余量、Kubernetes集群關鍵資源水位等,排查風險項并根據推薦的解決方案修復問題。本文介紹如何使用集群巡檢功能排查集群的潛在風險。
索引
前提條件
已創建集群。具體操作,請參見創建Kubernetes托管版集群、創建Kubernetes專有版集群或創建ACK Serverless集群。
已確保Kubernetes集群處于正常運行狀態。
訪問容器服務管理控制臺,在集群列表頁面,查看目標集群的集群狀態。若集群狀態為運行中,表示集群處于正常運行狀態。
配置集群巡檢
使用集群巡檢功能時,系統將在您的集群中執行數據采集程序并收集檢查結果。采集的信息包括系統版本、負載、Docker、kubelet等運行狀態及系統日志中關鍵錯誤信息。數據采集程序不會采集您的業務信息及敏感數據。
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
在集群巡檢頁面的巡檢規則區域,單擊添加。
在配置定時巡檢規則面板,設置相應的時區和定時規則,仔細檢查后選中我已知曉并同意,然后單擊保存配置。
集群定時巡檢配置完成后,將按照指定的時間巡檢集群。
您也可以在集群巡檢頁面的檢查報告列表區域,單擊執行巡檢檢查,手動巡檢集群。巡檢完成后,將在報告列表區域顯示相關信息。
查看巡檢結果
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
在集群管理頁左側導航欄,選擇
。在集群巡檢頁面的檢查報告列表區域右側的操作列,單擊目標檢查報告右側的查看詳情。
集群巡檢會按照觸發風險的程度分為低危、中危和高危,并高亮顯示。
集群巡檢詳細內容包含風險級別、風險項名稱、異常影響及解決方案。關于集群巡檢的常見風險預警及修復方案的更多信息,請參見集群巡檢項及解決方案。
在檢查報告頁面,查看風險項、異常影響以及推薦的解決方案。
相關操作
訂閱巡檢報告
集群巡檢支持訂閱巡檢結果。您可以在集群巡檢頁面的訂閱巡檢報告區域,訪問智能顧問控制臺,配置訂閱巡檢報告。
關于智能顧問的使用方式,請參見新手指引。
管理巡檢規則
集群定時巡檢配置完成后,您可以在巡檢規則區域進行以下操作。
單擊編輯,設置新的巡檢規則。
單擊刪除,刪除無需使用的巡檢規則。規則刪除后,集群將不再按此規則巡檢。