工作流集群集成阿里云ARMS Prometheus服務,提供完善的可觀測能力。您可以查看工作流運行狀況和集群的健康狀況。本文介紹如何在工作流集群中開啟和使用Prometheus監控服務。
前提條件
已授予RAM用戶AliyunAdcpFullAccess權限。具體操作,請參見為RAM用戶授權。
說明
如果您的工作流集群未能正常開啟集群監控,請提交工單聯系容器服務團隊。也可加入釘釘群(釘釘群號:35688562)進行反饋。
計費說明
工作流集群監控會引起額外的費用,建議在啟用此功能前,仔細閱讀計費說明。
開啟Prometheus監控服務
通過控制臺開啟
登錄ACK One控制臺,在左側導航欄選擇 。
在集群監控頁面,單擊開啟工作流集群監控,然后單擊確定,開啟工作流集群監控。
通過命令開啟
執行以下命令,獲取工作流集群的ClusterID。
aliyun adcp DescribeHubClusters --Profile=XFlow
執行以下命令,開啟Prometheus監控服務。
aliyun adcp UpdateHubClusterFeature --MonitorEnabled true --ClusterId <cluster id>
Prometheus監控服務開啟后,將為該工作流實例自動創建一個ARMS Prometheus實例。
查看Prometheus監控大盤。
登錄ACK One控制臺,在左側導航欄選擇工作流集群。
在工作流集群頁面的常用操作區域,單擊應用實時監控服務ARMS跳轉至大盤列表頁面。
您可以查看集群的運行狀況和更詳盡的信息,包括工作流運行狀態、APIServer、etcd、Pod信息等。
在大盤列表頁面,單擊ACKOne-ArgoWorkflow大盤,查看工作流運行狀況。
關閉Prometheus監控服務
通過控制臺關閉
登錄ACK One控制臺,在左側導航欄選擇 。
在集群監控頁面,單擊右側關閉功能,然后單擊確定,關閉工作流集群監控。
通過命令關閉
執行以下命令,關閉Prometheus監控服務。
aliyun adcp UpdateHubClusterFeature --MonitorEnabled false --ClusterId <cluster id>
文檔內容是否對您有幫助?