通過控制臺(tái)快速創(chuàng)建和管理集群
本入門教程介紹如何通過E-HPC控制臺(tái)快速創(chuàng)建一個(gè)公共云標(biāo)準(zhǔn)版的集群并進(jìn)行管理,幫助您快速上手使用彈性高性能計(jì)算產(chǎn)品。
前提條件
已創(chuàng)建服務(wù)關(guān)聯(lián)角色。首次登錄E-HPC控制臺(tái),系統(tǒng)會(huì)提示您創(chuàng)建E-HPC服務(wù)關(guān)聯(lián)角色。
已創(chuàng)建專有網(wǎng)絡(luò)VPC和交換機(jī)。具體操作,請(qǐng)參見創(chuàng)建專有網(wǎng)絡(luò)和創(chuàng)建交換機(jī)。
已創(chuàng)建存儲(chǔ)資源。E-HPC集群支持掛載NAS和CPFS文件系統(tǒng),可按需選擇。
掛載NAS:需開通NAS服務(wù),創(chuàng)建NAS文件系統(tǒng)和掛載點(diǎn)。具體操作,請(qǐng)參見創(chuàng)建文件系統(tǒng)和添加掛載點(diǎn)。
掛載CPFS-NFS:需開通CPFS服務(wù),創(chuàng)建CPFS文件系統(tǒng)、協(xié)議服務(wù)和導(dǎo)出目錄。具體操作,請(qǐng)參見創(chuàng)建文件系統(tǒng)、管理協(xié)議服務(wù)和管理導(dǎo)出目錄。
創(chuàng)建集群
單擊前往創(chuàng)建集群頁面。
在創(chuàng)建集群頁面,完成以下各步驟的參數(shù)配置。
集群配置
基礎(chǔ)設(shè)置
配置項(xiàng)
示例
說明
地域
華東 1(杭州)
選擇集群所在地域。
網(wǎng)絡(luò)及可用區(qū)
專有網(wǎng)絡(luò):vpc-bp1opxu1zkhn00g****
交換機(jī):vsw-bp1ljgg5tjrs62n64****
選擇集群所在的專有網(wǎng)絡(luò)和交換機(jī)。
說明集群內(nèi)的節(jié)點(diǎn)會(huì)占用所選交換機(jī)的IP地址,請(qǐng)確保交換機(jī)下的可用IP地址數(shù)大于所需的節(jié)點(diǎn)數(shù)量。
安全組
選擇自動(dòng)創(chuàng)建普通安全組。
安全組用于控制集群及其節(jié)點(diǎn)的出入流量。系統(tǒng)自動(dòng)創(chuàng)建的安全組會(huì)自動(dòng)添加規(guī)則,保證集群內(nèi)的各節(jié)點(diǎn)通信。
請(qǐng)根據(jù)需要選擇自動(dòng)創(chuàng)建的安全組類型。關(guān)于普通安全組和企業(yè)安全組的差異,請(qǐng)參見普通安全組與企業(yè)級(jí)安全組。
集群類型
本文演示如何創(chuàng)建公共云標(biāo)準(zhǔn)版集群,該類型集群由一個(gè)管理節(jié)點(diǎn)和多個(gè)計(jì)算節(jié)點(diǎn)組成。您需要選擇集群部署的調(diào)度器類型,并配置管理節(jié)點(diǎn)。
配置項(xiàng)
示例
說明
系列
選擇標(biāo)準(zhǔn)版。
集群的系列。
部署模式
選擇公共云集群。
集群的部署模式。
集群類型
選擇SLURM。
選擇集群的調(diào)度器類型。支持HPC場(chǎng)景常用調(diào)度器,包括Slurm、OpenPBS和Grid Engine。
管理節(jié)點(diǎn)
規(guī)格族:通用型g6
實(shí)例規(guī)格:ecs.g6.large
鏡像:CentOS 7.6 64 位
存儲(chǔ):系統(tǒng)盤40G、ESSD云盤PL0
超線程:?jiǎn)⒂?/p>
管理節(jié)點(diǎn)是一臺(tái)部署了調(diào)度器和域賬號(hào)服務(wù)的ECS實(shí)例。請(qǐng)根據(jù)業(yè)務(wù)場(chǎng)景和集群規(guī)模,為管理節(jié)點(diǎn)選擇合適的配置。
付費(fèi)模式
選擇如何為管理節(jié)點(diǎn)付費(fèi)。具體計(jì)費(fèi)說明,請(qǐng)參見實(shí)例規(guī)格計(jì)費(fèi)。
按量付費(fèi):后付費(fèi),按實(shí)際使用時(shí)長(zhǎng)計(jì)費(fèi),不支持搶占式實(shí)例。
包年包月。預(yù)付費(fèi),按周、月、年計(jì)費(fèi)。
實(shí)例規(guī)格
選擇合適的管理節(jié)點(diǎn)規(guī)格。對(duì)于不同規(guī)模的集群,推薦的管理節(jié)點(diǎn)規(guī)格如下:
如果計(jì)算節(jié)點(diǎn)數(shù)≤100個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥16核,內(nèi)存≥64 GiB。
如果計(jì)算節(jié)點(diǎn)數(shù)≤500個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥32核,內(nèi)存≥128 GiB。
如果計(jì)算節(jié)點(diǎn)數(shù)>500個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥64核,內(nèi)存≥256 GiB。
鏡像
選擇用于部署管理節(jié)點(diǎn)環(huán)境的鏡像。不同鏡像支持的調(diào)度器不同,以界面顯示為準(zhǔn)。
存儲(chǔ)
選擇管理節(jié)點(diǎn)的系統(tǒng)盤規(guī)格,以及是否掛載數(shù)據(jù)盤。關(guān)于云盤的類型和性能等信息,請(qǐng)參見云盤概述。
超線程
默認(rèn)開啟CPU超線程,如果您的業(yè)務(wù)場(chǎng)景需要獲得更好的性能表現(xiàn),可以關(guān)閉CPU超線程。
計(jì)算節(jié)點(diǎn)與隊(duì)列
基本設(shè)置
配置項(xiàng)
示例
說明
隊(duì)列自動(dòng)伸縮
不開啟
選擇是否開啟自動(dòng)伸縮。開啟后,可進(jìn)一步按需選擇是否開啟自動(dòng)擴(kuò)容和自動(dòng)縮容。
開啟自動(dòng)伸縮后,系統(tǒng)會(huì)根據(jù)配置信息和實(shí)時(shí)負(fù)載,自動(dòng)增加或者減少計(jì)算節(jié)點(diǎn)。
隊(duì)列節(jié)點(diǎn)數(shù)
5
設(shè)置隊(duì)列包含的節(jié)點(diǎn)數(shù)量。
如果沒有開啟隊(duì)列自動(dòng)伸縮,請(qǐng)配置隊(duì)列初始的計(jì)算節(jié)點(diǎn)數(shù)量。
如果開啟了隊(duì)列自動(dòng)伸縮,請(qǐng)配置隊(duì)列允許的最小節(jié)點(diǎn)數(shù)和最大節(jié)點(diǎn)數(shù)。
重要如果將最小節(jié)點(diǎn)數(shù)修改為非0值,集群縮容時(shí)該隊(duì)列會(huì)保留最小節(jié)點(diǎn)數(shù)量的節(jié)點(diǎn),即使是空閑節(jié)點(diǎn)也不會(huì)被釋放。請(qǐng)您謹(jǐn)慎設(shè)置最小節(jié)點(diǎn)數(shù),以免導(dǎo)致自動(dòng)縮容后隊(duì)列中存在空閑節(jié)點(diǎn),造成資源浪費(fèi)和不必要的經(jīng)濟(jì)損失。
選擇隊(duì)列節(jié)點(diǎn)配置
配置項(xiàng)
示例
說明
節(jié)點(diǎn)間互聯(lián)
選擇VPC網(wǎng)絡(luò)。
選擇節(jié)點(diǎn)之間網(wǎng)絡(luò)連通方式。
VPC:節(jié)點(diǎn)之間通過VPC網(wǎng)絡(luò)進(jìn)行通信。
eRDMA:如果節(jié)點(diǎn)使用支持ERI的規(guī)格,則節(jié)點(diǎn)之間可以通過eRDMA網(wǎng)絡(luò)進(jìn)行通信。
說明僅部分節(jié)點(diǎn)規(guī)格支持ERI,更多信息,請(qǐng)參見eRDMA概述和在企業(yè)級(jí)實(shí)例上配置eRDMA。
虛擬交換機(jī)
vsw-bp1ljgg5tjrs62n64****
選擇節(jié)點(diǎn)所屬的交換機(jī)。系統(tǒng)會(huì)自動(dòng)從可用的交換機(jī)網(wǎng)段中為節(jié)點(diǎn)分配IP地址。
實(shí)例規(guī)格組
規(guī)格族:通用型g6
實(shí)例規(guī)格:ecs.g6.large
鏡像:CentOS 7.6 64 位
存儲(chǔ):系統(tǒng)盤40G、ESSD云盤PL0
超線程:?jiǎn)⒂?/p>
單擊添加實(shí)例規(guī)格,選擇節(jié)點(diǎn)的規(guī)格。
如果未開啟自動(dòng)伸縮,則僅支持添加一個(gè)實(shí)例規(guī)格;如果開啟了自動(dòng)伸縮,則支持添加多個(gè)實(shí)例規(guī)格。
共享文件存儲(chǔ)
配置項(xiàng)
示例
說明
類型
選擇通用型NAS。
選擇要掛載的文件系統(tǒng)類型。
通用型NAS:掛載通用型NAS文件系統(tǒng)。
極速型NAS:掛載極速型NAS文件系統(tǒng)。
并行文件CPFS:使用NFS協(xié)議掛載CPFS文件系統(tǒng)。
文件系統(tǒng)
0e9104****(容量型 NFS)
選擇要掛載的文件系統(tǒng)ID和掛載點(diǎn),請(qǐng)確保該文件系統(tǒng)還有可用的掛載點(diǎn)余量。
文件系統(tǒng)目錄
0e9104****-tpd33.cn.hangzhou.nas.aliyuncs.com
輸入要掛載的文件系統(tǒng)目錄。
掛載選項(xiàng)
選擇NFS v3掛載。
選擇掛載協(xié)議。
軟件與服務(wù)組件
無需設(shè)置,默認(rèn)已配置一個(gè)登錄節(jié)點(diǎn)。
確認(rèn)配置
確認(rèn)配置信息,并配置集群名稱和登錄憑證。
配置項(xiàng)
示例
說明
集群名稱
E-HPC-test
輸入名稱。該名稱會(huì)在集群列表中顯示,便于您查找識(shí)別。
登錄憑證
選擇自定義密碼。
選擇登錄集群的憑證。目前僅支持自定義密碼。
設(shè)置密碼、確認(rèn)密碼
Ehpc12****
輸入登錄集群的密碼。集群中所有節(jié)點(diǎn)默認(rèn)使用該密碼作為root用戶的登錄密碼。
閱讀服務(wù)與協(xié)議,確認(rèn)費(fèi)用信息,然后單擊創(chuàng)建集群。
在集群列表頁面,如果出現(xiàn)名為
E-HPC-test
且狀態(tài)為運(yùn)行中的集群,則表示該集群已成功創(chuàng)建。
創(chuàng)建用戶
在集群中提交作業(yè)前,您需要為集群新增用戶。
在用戶管理頁面,單擊新增用戶。
在彈出的對(duì)話框中,完成用戶信息配置,然后單擊確定。
配置項(xiàng)
示例
說明
用戶名
test.user
用戶名稱,自定義輸入。
限制為6~30個(gè)字符。
以英文開頭。
英文字母數(shù)字或符號(hào)
(.)
組成。
用戶權(quán)限
sudo權(quán)限組
普通權(quán)限組:適用于只有提交、調(diào)試作業(yè)需求的普通用戶。
sudo權(quán)限組:適用于需要管理集群的管理員。除提交、調(diào)試作業(yè)外,還可以執(zhí)行sudo命令進(jìn)行安裝軟件、重啟節(jié)點(diǎn)等操作。
重要請(qǐng)謹(jǐn)慎分配sudo權(quán)限。具有sudo權(quán)限的用戶如果操作錯(cuò)誤(如誤刪除E-HPC軟件棧模塊),會(huì)導(dǎo)致集群異常。
密碼、確認(rèn)密碼
Ehpc12****
根據(jù)頁面提示,設(shè)置用戶使用密碼登錄集群時(shí),需要輸入的密碼。
擴(kuò)容集群
在集群列表頁面,單擊目標(biāo)集群名稱。
在左側(cè)導(dǎo)航欄,選擇
。單擊添加節(jié)點(diǎn),在添加節(jié)點(diǎn)頁面配置以下參數(shù)。
基礎(chǔ)設(shè)置
配置項(xiàng)
示例
說明
目標(biāo)隊(duì)列
comp
選擇該集群內(nèi)已創(chuàng)建的隊(duì)列。
節(jié)點(diǎn)數(shù)
10
設(shè)置需要擴(kuò)容的節(jié)點(diǎn)數(shù)量。
節(jié)點(diǎn)配置
配置項(xiàng)
示例
說明
選擇節(jié)點(diǎn)類型
新建節(jié)點(diǎn)
僅支持選擇新建節(jié)點(diǎn)。
節(jié)點(diǎn)間互聯(lián)
VPC網(wǎng)絡(luò)
選擇節(jié)點(diǎn)之間網(wǎng)絡(luò)連通方式。
VPC網(wǎng)絡(luò):節(jié)點(diǎn)之間通過VPC網(wǎng)絡(luò)進(jìn)行通信。
eRDMA網(wǎng)絡(luò):如果節(jié)點(diǎn)使用支持ERI的規(guī)格,則節(jié)點(diǎn)之間可以通過eRDMA網(wǎng)絡(luò)進(jìn)行通信。
說明僅部分節(jié)點(diǎn)規(guī)格支持ERI,更多信息,請(qǐng)參見eRDMA概述和在企業(yè)級(jí)實(shí)例上配置eRDMA。
虛擬交換機(jī)
vsw-bp1ljgg5tjrs62n64****
選擇節(jié)點(diǎn)所屬的交換機(jī)。系統(tǒng)會(huì)自動(dòng)從可用的交換機(jī)網(wǎng)段中為節(jié)點(diǎn)分配IP地址。
實(shí)例規(guī)格組
規(guī)格族:通用型g6
實(shí)例規(guī)格:ecs.g6.large
鏡像:CentOS 7.6 64 位
存儲(chǔ):系統(tǒng)盤40G、ESSD云盤PL0
超線程:?jiǎn)⒂?/p>
單擊添加實(shí)例規(guī)格,選擇節(jié)點(diǎn)的規(guī)格。
如果未開啟自動(dòng)伸縮,則僅支持添加一個(gè)實(shí)例規(guī)格;如果開啟了自動(dòng)伸縮,則支持添加多個(gè)實(shí)例規(guī)格。
選中我已知曉:添加節(jié)點(diǎn)默認(rèn)開啟“刪除保護(hù)”功能,不受隊(duì)列伸縮配置影響,然后單擊確認(rèn)添加。
您可以在節(jié)點(diǎn)列表中查看已擴(kuò)容節(jié)點(diǎn)的狀態(tài)。當(dāng)該節(jié)點(diǎn)狀態(tài)為運(yùn)行中,說明擴(kuò)容集群已完成。
提交作業(yè)
在集群詳情頁面左側(cè)導(dǎo)航欄,單擊作業(yè)管理。
單擊創(chuàng)建作業(yè)。
在創(chuàng)建作業(yè)頁面,根據(jù)實(shí)際需要完成相關(guān)配置,然后單擊確認(rèn)創(chuàng)建。
說明請(qǐng)注意以下配置,未提及的配置請(qǐng)保持默認(rèn)。更多配置詳情,請(qǐng)參見提交作業(yè)。
配置項(xiàng)
是否必選
示例
說明
作業(yè)名稱
是
testjob
該作業(yè)的名稱。
調(diào)度器隊(duì)列
是
comp
選擇集群中執(zhí)行作業(yè)任務(wù)的隊(duì)列。
執(zhí)行命令
是
/home/test.user/testjob.slurm
向調(diào)度器提交的作業(yè)執(zhí)行命令,可以是腳本文件,也可以是一段命令文本。分為以下兩種情況:
腳本文件可執(zhí)行,填寫相對(duì)路徑,如
/home/test.user/testjob.slurm
。腳本文件沒有可執(zhí)行權(quán)限,則需要填寫執(zhí)行命令,如:
/opt/mpi/bin/mpirun /home/test/job.slurm
。
刪除節(jié)點(diǎn)
對(duì)于不再需要的計(jì)算節(jié)點(diǎn),您可以執(zhí)行刪除操作將節(jié)點(diǎn)從集群中移除。
在節(jié)點(diǎn)列表中選中一個(gè)或多個(gè)節(jié)點(diǎn)。
在列表下方單擊刪除。
確認(rèn)提示信息,然后單擊確定。
釋放集群
當(dāng)您不再需要某個(gè)集群提供服務(wù)時(shí),您可以釋放該集群。
在集群詳情頁面,單擊右上角的更多操作,然后單擊釋放集群。
在彈出對(duì)話框中,單擊確認(rèn)。
相關(guān)文檔
您可以通過集群模板快速創(chuàng)建一個(gè)預(yù)裝GROMACS軟件的集群,并通過E-HPC Portal快速提交作業(yè)。具體操作,請(qǐng)參見快速開啟GROMACS分析任務(wù)。