ACK集群集成了阿里云Prometheus,提供可視化的Prometheus監控大盤。在集群中開啟動態資源超賣功能后,您可以使用ACK提供的在離線混部監控功能,查看混部資源的數據情況,例如混部CPU和內存資源總量、CPU和內存資源分配率等。
前提條件
已確保ack-koordinator組件版本為v1.1.1-ack.1及以上,請參見ack-koordinator(ack-slo-manager)。
已啟用動態資源超賣功能,請參見啟用動態資源超賣。
大盤入口
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇 。
在Prometheus監控頁面,單擊 。
大盤說明
在離線混部監控大盤提供如下功能:
混部收益情況:提供在離線混部場景的資源收益看板,支持查看和分析使用混部的資源收益情況。
混部資源可觀測:提供在離線混部場景中關鍵指標的可觀測能力,支持在集群、節點池、節點以及Pod維度查詢混部資源的容量情況。
下方為在離線混部監控的大盤示例。大盤會不定期進行升級,請以您的實際界面為準。
集群混部收益概覽
此區域展示在離線混部的資源收益和使用趨勢。
混部資源總量和分配量
概念 | 說明 |
非混部資源 | ACK節點上所有可調度(Allocatable)的物理資源,稱為非混部資源。非混部資源的總量和節點的機器規格有關,不受在離線混部影響。 |
混部資源 | 啟用動態資源超賣功能可以挖掘集群中的空閑物理資源,即可用的混部資源。混部資源的總量與實際資源利用率有關,會隨著節點的空閑物理資源量動態變化,是在離線混部額外提供的可調度資源,也是衡量在離線混部收益的關鍵指標之一。 |
混部資源總量 | 分為CPU和內存兩個資源維度,分別展示了集群當前可供應用混部調度的CPU資源總量和內存資源總量。如上圖所示,集群共有118核CPU資源和487 GiB內存資源可供應用混部。 混部資源總量越大,表明集群中可供應用混部的空閑物理資源越多,通過在離線混部調度更多應用的潛在收益越大。 |
混部資源分配量 | 分為CPU和內存兩個資源維度,分別展示了集群當前為應用混部已分配的CPU資源量和內存資源量。如上圖所示,集群共有2核CPU資源和1 GiB內存資源已為應用混部分配。 混部資源分配量越大,表明集群中已調度的離線混部資源越多,通過在離線混部調度更多應用的收益越大。 |
混部資源分配率 | 分為CPU和內存兩個資源維度,分別展示了集群當前為應用混部的CPU資源分配率和內存資源分配率( 混部資源分配率越大,說明集群對混部資源的分配比例越高,在離線混部的收益越大。 |
混部資源使用趨勢
概念 | 說明 |
混部Pod數量 | 分為使用非混部資源調度的Pod數目和使用混部資源調度的Pod數目。混部Pod數量比例展示了集群中使用非混部資源調度和使用混部資源調度的Pod數目的相對比例。 |
資源混部比例 | 分為CPU和內存兩個資源維度,資源混部比例展示了集群當前可供應用非混部調度的資源量和可供應用混部調度的資源量。集群中的空閑物理資源越多,混部資源的比例越高,表示有更多資源可供混部調度。 |
集群混部資源詳情
集群資源視圖、單機資源視圖和Pod資源視圖區域分別展示了在集群、節點和Pod維度的資源使用量和資源申請量。
集群資源視圖
概念 | 說明 |
集群資源使用量 | 分為CPU和內存兩個資源維度,每個維度中包含集群的物理資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。 集群資源使用量可衡量當前集群不同類型資源的使用情況,若三種使用量指標之和遠小于物理資源總量,則表明集群的平均利用率較低,有較多物理資源處于空閑狀態。 |
集群混部資源申請量 | 分為CPU和內存兩個資源維度,每個維度中包含資源的可供調度的混部資源總量和當前已申請的混部資源量。資源申請量越接近資源總量,混部資源的申請比例越大,表明混部資源分配越充分。 |
集群非混部資源申請量 | 分為CPU和內存兩個資源維度,每個維度中包含資源的可供調度的非混部資源總量和當前已申請的非混部資源量。資源申請量越接近資源總量,非混部資源的申請比例越大,說明非混部資源分配越充分。 |
單機資源視圖
在k8s-reclaimed-resource頁簽上方配置node_label和node_label_value,查看不同節點的單機資源視圖。
部分過濾項說明如下:
過濾項 | 說明 |
node_label_value | 默認值為All,表示集群混部收益情況和集群資源視圖區域統計范圍為集群的所有節點。 可選擇目標節點池,在集群混部收益情況和集群資源視圖區域查看該節點池的資源視圖。 |
node_label | 支持按不同的節點Label來選中節點,具體操作,請參見頁面上方的使用提示。 |
概念 | 說明 |
節點資源混部比例 | 分為CPU和內存兩個資源維度,每個維度包含節點上非混部資源的總量和混部資源的總量。非混部資源總量和混部資源總量堆疊展示,表示了兩者在單機資源上占據的相對比例。 |
節點資源使用量 | 分為CPU和內存兩個資源維度,內存資源按照是否包含Cache部分細分為不含Cache和含Cache的兩個子維度。每個維度包含節點上的物理資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。 節點資源使用量可用來衡量當前節點不同類型資源的使用情況,若三種使用量指標之和遠小于物理資源總量,表明節點的平均利用率較低,有較多物理資源處于空閑狀態。 |
節點混部資源申請量 | 分為CPU和內存兩個資源維度,每個維度包含節點上的混部資源總量和混部資源已申請量。資源申請量越接近資源總量,混部資源的申請比例越大,表明混部資源分配越充分。 |
各Pod混部資源申請量 | 分為CPU和內存兩個資源維度,包含節點上所有混部Pod的資源申請量。 |
各Pod混部資源利用率 | 分為CPU和內存兩個資源維度,包含節點上所有混部Pod的資源利用率。 |
Pod資源視圖
在k8s-reclaimed-resource頁簽上方配置pod_namespace和pod_name,查看不同Pod的資源視圖。
概念 | 說明 |
Pod混部資源量 | 分為CPU和內存兩個資源維度,每個維度包含Pod對混部資源的使用上限、申請量和實際用量。 |
Pod混部資源利用率 | 分為CPU和內存兩個資源維度,每個維度包含Pod使用混部資源的利用率。 |
各容器混部資源量 | 分為CPU和內存兩個資源維度,每個維度包含Pod內各個容器對混部資源的使用上限、申請量和實際用量。 |
FAQ
為什么k8s-reclaimed-resource頁簽中,集群混部收益情況區域沒有數據?
查看是否已安裝ack-koordinator組件。
查看在離線混部監控大盤是否顯示相關數據。
若不顯示,請執行以下步驟:
登錄ARMS控制臺。
在左側導航欄選擇 ,進入可觀測監控 Prometheus 版的實例列表頁面。
在頁面左上角選擇目標地域,單擊Prometheus實例名稱,然后在左側導航欄單擊指標管理。
在左側篩選區域的指標文本框中搜索并選擇kube_node_labels,查看指標的數據詳情。