當E-HPC集群面臨計算節點資源不足或過多的問題時,您可以根據實際需求手動擴縮容集群,或者配置集群自動伸縮功能,無需手動操作即可實現擴縮容,以滿足業務需求。本文介紹E-HPC伸縮集群的相關概念和功能。
手動擴縮容
在E-HPC集群中,手動擴縮容本質上就是指手動創建或刪除計算節點。您可以根據實際需求手動擴容或縮容節點,以增加或減少計算節點的數量。擴容節點可以提高集群的計算能力,而縮容節點則可以減少資源浪費或節省成本。
如需了解具體操作和使用限制,請參見管理節點。
自動伸縮
E-HPC集群提供自動伸縮功能,該功能基于隊列維度進行調整。系統會根據集群作業的任務數和GPU數,自動擴容或縮容集群中某個隊列的計算節點數量。當有大量計算任務提交時,集群可以自動增加計算節點,以加速任務的處理;而在沒有任務時,集群可以自動減少計算節點,以節約能源和資源消耗。通過自動化的調整,E-HPC集群能夠更加高效地應對不同工作負載的變化,從而提高整體的性能和資源利用率。
全局配置
您可以通過設置全局配置,啟動集群擴縮容,并且設置集群最大節點和最大核數等條件限制。
進入集群列表頁面。
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,單擊集群。
在集群列表頁面,找到待操作的集群,單擊自動伸縮。
在彈出的集群自動伸縮對話框中,完成集群全局配置區域的參數配置。
配置項
說明
開關設置
為集群內所有隊列開啟自動擴容和自動縮容。
說明當隊列配置和全局配置中配置不一致時,以隊列設置為優先。
擴容等待時間
指從提交作業到系統開始擴容操作所需的預計時間。默認為2分鐘。
縮容等待時間
指節點在沒有接收到任何作業請求的情況下,持續空閑的時間閾值,超過這個時間后,系統將會自動釋放該節點的資源。其中,縮容等待時間默認為4分鐘。
集群最大節點數
該集群內可創建的最大節點數。
集群最大核數
該集群內可創建的最大核數。
隊列自動伸縮
對于任意單個隊列,您可以自定義設置隊列自動伸縮配置。如需了解具體操作和使用限制,請參見自動伸縮節點。