E-HPC集群支持對運行不同作業(yè)或執(zhí)行不同任務的計算節(jié)點進行分類,以實現資源的高效管理。通過對計算節(jié)點進行隊列分組,可以更靈活地篩選和調度節(jié)點,從而優(yōu)化作業(yè)執(zhí)行效率。本文介紹如何使用隊列分組管理計算節(jié)點,包括創(chuàng)建和刪除隊列,以及編輯隊列配置。
隊列在資源監(jiān)控中是一個重要的維度,您可以通過監(jiān)控頁面以隊列為維度,查看隊列節(jié)點整體的負載與性能。更多信息,請參見查看監(jiān)控信息。
前提條件
集群狀態(tài)處于運行中。
執(zhí)行刪除隊列操作時,隊列中沒有計算節(jié)點。
創(chuàng)建隊列
進入集群詳情頁面。
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,單擊集群。
在集群列表頁面,單擊目標集群名稱。
在左側導航欄,選擇
。單擊創(chuàng)建隊列,在創(chuàng)建隊列頁面填寫對應參數。
配置項說明如下:
基本設置
配置項
說明
隊列名稱
填寫隊列名稱,需滿足以下條件:
字符長度:1~15個字符。
允許字符:大寫字母(A~Z)、小寫字母(a~z)、數字(0~9)、下劃線(_)。
隊列自動伸縮
選擇是否開啟自動伸縮。開啟后,可進一步按需選擇是否開啟自動擴容和自動縮容。
開啟自動伸縮后,系統(tǒng)會根據配置信息和實時負載,自動增加或者減少計算節(jié)點。
隊列節(jié)點數
設置隊列包含的節(jié)點數量。
如果沒有開啟隊列自動伸縮,請配置隊列初始的計算節(jié)點數量。
如果開啟了隊列自動伸縮,請配置隊列允許的最小節(jié)點數和最大節(jié)點數。
重要如果將最小節(jié)點數修改為非0值,集群縮容時該隊列會保留最小節(jié)點數量的節(jié)點,即使是空閑節(jié)點也不會被釋放。請您謹慎設置最小節(jié)點數,以免導致自動縮容后隊列中存在空閑節(jié)點,造成資源浪費和不必要的經濟損失。
選擇隊列節(jié)點配置
如果開啟了隊列自動伸縮,或者沒有開啟隊列自動伸縮但初始節(jié)點數不為0時,需配置以下信息,以便系統(tǒng)可以創(chuàng)建計算節(jié)點。
配置項
說明
節(jié)點間互聯(lián)
選擇節(jié)點之間網絡連通方式。
VPC網絡:節(jié)點之間通過VPC網絡進行通信。
eRDMA網絡:如果節(jié)點使用支持ERI的規(guī)格,則節(jié)點之間可以通過eRDMA網絡進行通信。
說明僅部分節(jié)點規(guī)格支持ERI,更多信息,請參見eRDMA概述和在企業(yè)級實例上配置eRDMA。
虛擬交換機
選擇節(jié)點所屬的交換機。系統(tǒng)會自動從可用的交換機網段中為節(jié)點分配IP地址。
實例規(guī)格組
單擊添加實例規(guī)格,選擇節(jié)點的規(guī)格。
如果未開啟自動伸縮,則僅支持添加一個實例規(guī)格;如果開啟了自動伸縮,則支持添加多個實例規(guī)格。
重要您可以選擇多個虛擬交換機和多個實例規(guī)格作為備選,避免因庫存問題導致實例創(chuàng)建失敗。創(chuàng)建計算節(jié)點時,系統(tǒng)會從第一個交換機所在可用區(qū)開始,按照實例規(guī)格順序嘗試創(chuàng)建,直到創(chuàng)建出滿足所需節(jié)點數量的計算節(jié)點。最終創(chuàng)建成功的實例的規(guī)格可能隨庫存變化而不同。
自動伸縮
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支持供應優(yōu)先策略,表示會按照配置的交換機順序,從對應可用區(qū)依次嘗試創(chuàng)建符合規(guī)格要求的計算節(jié)點。
單次最大伸縮節(jié)點數
每輪擴容或縮容周期最多增加或減少的節(jié)點數量。默認為0,表示不限制最大數量。
如果您對使用成本有要求,可以設置該值,確保擴容的節(jié)點數量不超出預期。
主機名前綴
節(jié)點主機名的開頭字符,用以標記區(qū)分節(jié)點。
主機名后綴
節(jié)點主機名的結尾字符,用以標記區(qū)分節(jié)點。
主機RAM角色
為節(jié)點綁定RAM角色,使得節(jié)點可以獲得權限訪問阿里云服務。
建議您選擇系統(tǒng)創(chuàng)建的默認角色AliyunECSInstanceForEHPCRole。
單擊保存。
在隊列列表頁面單擊圖標進行刷新,如果目標隊列存在,則表示您已成功創(chuàng)建。
配置隊列
建議您在業(yè)務空閑時執(zhí)行配置隊列操作,以避免對正在進行的業(yè)務造成影響。
進入集群詳情頁面。
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,單擊集群。
在集群列表頁面,單擊目標集群名稱。
在左側導航欄,選擇
。單擊目標隊列操作列下的編輯。
在編輯隊列頁面,完成以下參數配置。
基本設置
配置項
說明
隊列自動伸縮
隊列自動伸縮默認為關閉狀態(tài),開啟該功能后,根據實際業(yè)務需求選擇是否開啟自動擴容和自動縮容。
說明當隊列配置和全局配置中配置不一致時,以隊列設置為優(yōu)先。
隊列節(jié)點數
隊列允許的計算節(jié)點數量范圍。
最小節(jié)點數:該值會影響縮容效果,取值范圍:0~1000。
最大節(jié)點數:該值會影響擴容效果,取值范圍:0~5000。
重要如果將最小節(jié)點數修改為非0值,集群縮容時該隊列會保留最小節(jié)點數量的節(jié)點,即使是空閑節(jié)點也不會被釋放。請您謹慎設置最小節(jié)點數,以免導致自動縮容后隊列中存在空閑節(jié)點,造成資源浪費和不必要的經濟損失。
隊列最大節(jié)點數不能超過集群最大節(jié)點數。
選擇隊列節(jié)點配置
如果開啟了隊列自動伸縮,或者沒有開啟隊列自動伸縮但初始節(jié)點數不為0時,需配置以下信息,以便系統(tǒng)可以創(chuàng)建計算節(jié)點。
配置項
說明
節(jié)點間互聯(lián)
選擇節(jié)點之間網絡連通方式。
VPC網絡:節(jié)點之間通過VPC網絡進行通信。
eRDMA網絡:如果節(jié)點使用支持ERI的規(guī)格,則節(jié)點之間可以通過eRDMA網絡進行通信。
說明僅部分節(jié)點規(guī)格支持ERI,更多信息,請參見eRDMA概述和在企業(yè)級實例上配置eRDMA。
虛擬交換機
選擇節(jié)點所屬的交換機。系統(tǒng)會自動從可用的交換機網段中為節(jié)點分配IP地址。
實例規(guī)格組
單擊添加實例規(guī)格,選擇節(jié)點的規(guī)格。
如果未開啟自動伸縮,則僅支持添加一個實例規(guī)格;如果開啟了自動伸縮,則支持添加多個實例規(guī)格。
重要您可以選擇多個虛擬交換機和多個實例規(guī)格作為備選,避免因庫存問題導致實例創(chuàng)建失敗。創(chuàng)建計算節(jié)點時,系統(tǒng)會從第一個交換機所在可用區(qū)開始,按照實例規(guī)格順序嘗試創(chuàng)建,直到創(chuàng)建出滿足所需節(jié)點數量的計算節(jié)點。最終創(chuàng)建成功的實例的規(guī)格可能隨庫存變化而不同。
自動伸縮
配置項
說明
伸縮策略
選擇伸縮策略。目前僅支持供應優(yōu)先策略,表示會按照配置的交換機順序,從對應可用區(qū)依次嘗試創(chuàng)建符合規(guī)格要求的計算節(jié)點。
單次最大伸縮節(jié)點數
每輪擴容或縮容周期最多增加或減少的節(jié)點數量。默認為0,表示不限制最大數量。
如果您對使用成本有要求,可以設置該值,確保擴容的節(jié)點數量不超出預期。
主機名前綴
節(jié)點主機名的開頭字符,用以標記區(qū)分節(jié)點。
主機名后綴
節(jié)點主機名的結尾字符,用以標記區(qū)分節(jié)點。
主機RAM角色
為節(jié)點綁定RAM角色,使得節(jié)點可以獲得權限訪問阿里云服務。
建議您選擇系統(tǒng)創(chuàng)建的默認角色AliyunECSInstanceForEHPCRole。
單擊保存。
在隊列列表頁面單擊圖標進行刷新,查看伸縮配置列中的信息,如果顯示信息已變更,則表示您已成功編輯。
刪除隊列
在刪除目標隊列前,請確保待刪除的隊列中沒有計算節(jié)點,否則您將無法執(zhí)行刪除操作。
建議您在業(yè)務空閑時執(zhí)行刪除隊列操作,以避免對正在進行的業(yè)務造成影響。
進入集群詳情頁面。
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,單擊集群。
在集群列表頁面,單擊目標集群名稱。
在左側導航欄,選擇
。選中待操作的隊列,選擇以下任一方式刪除隊列。
刪除單個隊列:單擊對應操作列中的刪除。
批量刪除隊列:選中一個或多個隊列,然后單擊頁面下方的批量刪除。
在彈出的對話框中,確認隊列信息,然后單擊確定。
在隊列列表頁面單擊圖標進行刷新,如果目標隊列不存在,則表示您已成功刪除。