您可以通過配置集群自動伸縮,實現計算節點的動態分配,無需手動操作。此功能根據實時負載自動調整計算節點數量,既提高了集群的可用性,又降低了使用成本。本文介紹如何配置自動伸縮。
功能優勢
根據實時負載,自動增加計算節點,提高集群的可用性。
在保證集群可用性的前提下,自動減少計算節點,降低集群成本。
停止異常狀態的節點,并創建相應的新節點,提高集群容錯能力。
注意事項
自動伸縮服務依賴于調度器服務和域賬號服務運行正常。開啟自動伸縮后,管理節點需要一直保持運行中。
如果管理節點需要關機或者重啟,請在計算節點沒有作業運行,并且自動伸縮已經釋放了空閑節點后再進行操作。此時,建議您先關閉自動伸縮,在管理節點重新啟動后,再開啟自動伸縮。
操作步驟
進入集群列表頁面。
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,單擊集群。
在集群列表頁面,找到待操作的集群,單擊自動伸縮。
在彈出的集群自動伸縮對話框中,完成集群全局配置區域的參數配置。
配置項
說明
開關設置
為集群內所有隊列開啟自動擴容和自動縮容。
說明當隊列配置和全局配置中配置不一致時,以隊列設置為優先。
擴容等待時間
指從提交作業到系統開始擴容操作所需的預計時間。默認為2分鐘。
縮容等待時間
指節點在沒有接收到任何作業請求的情況下,持續空閑的時間閾值,超過這個時間后,系統將會自動釋放該節點的資源。其中,縮容等待時間默認為4分鐘。
集群最大節點數
該集群內可創建的最大節點數。
集群最大核數
該集群內可創建的最大核數。
在計算節點與隊列區域,找到待操作的隊列。單擊目標隊列操作列中的伸縮配置,在編輯隊列頁面配置以下參數。
基本設置
配置項
說明
隊列自動伸縮
隊列自動伸縮默認為關閉狀態,開啟該功能后,根據實際業務需求選擇是否開啟自動擴容和自動縮容。
說明當隊列配置和全局配置中配置不一致時,以隊列設置為優先。
隊列節點數
隊列允許的計算節點數量范圍。
最小節點數:該值會影響縮容效果,取值范圍:0~1000。
最大節點數:該值會影響擴容效果,取值范圍:0~5000。
重要如果將最小節點數修改為非0值,集群縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設置最小節點數,以免導致自動縮容后隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。
隊列最大節點數不能超過集群最大節點數。
選擇隊列節點配置
如果開啟了隊列自動伸縮,或者沒有開啟隊列自動伸縮但初始節點數不為0時,需配置以下信息,以便系統可以創建計算節點。
配置項
說明
節點間互聯
選擇節點之間網絡連通方式。
VPC網絡:節點之間通過VPC網絡進行通信。
eRDMA網絡:如果節點使用支持ERI的規格,則節點之間可以通過eRDMA網絡進行通信。
說明僅部分節點規格支持ERI,更多信息,請參見eRDMA概述和在企業級實例上配置eRDMA。
虛擬交換機
選擇節點所屬的交換機。系統會自動從可用的交換機網段中為節點分配IP地址。
實例規格組
單擊添加實例規格,選擇節點的規格。
如果未開啟自動伸縮,則僅支持添加一個實例規格;如果開啟了自動伸縮,則支持添加多個實例規格。
重要您可以選擇多個虛擬交換機和多個實例規格作為備選,避免因庫存問題導致實例創建失敗。創建計算節點時,系統會從第一個交換機所在可用區開始,按照實例規格順序嘗試創建,直到創建出滿足所需節點數量的計算節點。最終創建成功的實例的規格可能隨庫存變化而不同。
自動伸縮
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支持供應優先策略,表示會按照配置的交換機順序,從對應可用區依次嘗試創建符合規格要求的計算節點。
單次最大伸縮節點數
每輪擴容或縮容周期最多增加或減少的節點數量。默認為0,表示不限制最大數量。
如果您對使用成本有要求,可以設置該值,確保擴容的節點數量不超出預期。
主機名前綴
節點主機名的開頭字符,用以標記區分節點。
主機名后綴
節點主機名的結尾字符,用以標記區分節點。
主機RAM角色
為節點綁定RAM角色,使得節點可以獲得權限訪問阿里云服務。
建議您選擇系統創建的默認角色AliyunECSInstanceForEHPCRole。
確認配置信息無誤,然后單擊保存。
伸縮策略說明
如果隊列中配置了多個實例規格,自動伸縮將按照實例規格的配置順序,并基于實例的庫存以及作業的任務數和GPU數,自動請求資源進行擴容。例如,當前排隊作業需要單節點具備16核,隊列分別配置8、16和32核時,自動伸縮將會自動選擇16核的實例規格進行擴容,但如果16核實例規格沒有庫存,自動伸縮將會選擇32核的實例規格進行擴容。
相關文檔
配置自動伸縮后,建議您檢查監控集群的健康狀態和資源使用情況,以評估自動伸縮參數的合理性。更多信息,請參見查看監控信息。