創(chuàng)建公共云標(biāo)準(zhǔn)版集群
公共云標(biāo)準(zhǔn)版集群部署在云環(huán)境中,由云服務(wù)器ECS實(shí)例和共享文件系統(tǒng)等組件構(gòu)成,用戶可自主維護(hù)集群服務(wù)的可用性。本文介紹如何在控制臺(tái)上創(chuàng)建公共云集群。
背景信息
E-HPC公共云標(biāo)準(zhǔn)版集群由以下幾部分組成:
管理節(jié)點(diǎn):對(duì)應(yīng)一個(gè)ECS實(shí)例,部署了調(diào)度器和域賬號(hào)服務(wù),用于管理作業(yè)調(diào)度和用戶信息等。
計(jì)算節(jié)點(diǎn):由多個(gè)ECS實(shí)例組成,可以按隊(duì)列分組管理,支持?jǐn)U縮容,用于運(yùn)行作業(yè)。
登錄節(jié)點(diǎn):對(duì)應(yīng)一個(gè)ECS實(shí)例,部署了Login組件,且綁定了EIP,用于遠(yuǎn)程連接集群。
共享存儲(chǔ):支持掛載NAS和CPFS文件系統(tǒng),用于共享數(shù)據(jù),包括作業(yè)數(shù)據(jù)、軟件數(shù)據(jù)等。
創(chuàng)建E-HPC集群時(shí),系統(tǒng)會(huì)自動(dòng)創(chuàng)建ECS實(shí)例等資源,可能會(huì)產(chǎn)生相關(guān)費(fèi)用。更多信息,請(qǐng)參見計(jì)費(fèi)概述。
創(chuàng)建E-HPC集群后,非特殊情況請(qǐng)勿使用云服務(wù)器ECS控制臺(tái)調(diào)整單個(gè)集群節(jié)點(diǎn)。建議您通過彈性高性能計(jì)算控制臺(tái)操作。
更多關(guān)于E-HPC集群的相關(guān)信息,請(qǐng)參見集群概述。
前提條件
已創(chuàng)建E-HPC相關(guān)服務(wù)關(guān)聯(lián)角色和普通服務(wù)角色。首次登錄E-HPC控制臺(tái),系統(tǒng)會(huì)提示您開通服務(wù),請(qǐng)按照提示創(chuàng)建相關(guān)服務(wù)角色。
已創(chuàng)建專有網(wǎng)絡(luò)VPC和交換機(jī)。具體操作,請(qǐng)參見創(chuàng)建和管理專有網(wǎng)絡(luò)和創(chuàng)建和管理交換機(jī)。
已創(chuàng)建存儲(chǔ)資源。E-HPC集群支持掛載NAS和CPFS文件系統(tǒng),可按需選擇。
掛載NAS:需開通NAS服務(wù),創(chuàng)建NAS文件系統(tǒng)和掛載點(diǎn)。具體操作,請(qǐng)參見創(chuàng)建文件系統(tǒng)和管理掛載點(diǎn)。
掛載CPFS:需開通CPFS服務(wù),創(chuàng)建CPFS文件系統(tǒng)、協(xié)議服務(wù)和導(dǎo)出目錄。具體操作,請(qǐng)參見創(chuàng)建文件系統(tǒng)、管理協(xié)議服務(wù)和管理導(dǎo)出目錄。
手動(dòng)創(chuàng)建
步驟一:打開創(chuàng)建集群頁面
單擊前往創(chuàng)建集群頁面。
步驟二:配置集群
在集群配置頁面,完成集群網(wǎng)絡(luò)、類型、調(diào)度器等配置。
基礎(chǔ)設(shè)置
配置項(xiàng)
說明
地域
選擇集群所在地域。
網(wǎng)絡(luò)及可用區(qū)
選擇集群所在的專有網(wǎng)絡(luò)和交換機(jī)。
說明集群內(nèi)的節(jié)點(diǎn)會(huì)占用所選交換機(jī)的IP地址,請(qǐng)確保交換機(jī)下的可用IP地址數(shù)大于所需的節(jié)點(diǎn)數(shù)量。
安全組
安全組用于控制集群及其節(jié)點(diǎn)的出入流量。系統(tǒng)自動(dòng)創(chuàng)建的安全組會(huì)自動(dòng)添加規(guī)則,保證集群內(nèi)的各節(jié)點(diǎn)通信。
請(qǐng)根據(jù)需要選擇自動(dòng)創(chuàng)建的安全組類型。關(guān)于普通安全組和企業(yè)安全組的差異,請(qǐng)參見普通安全組與企業(yè)級(jí)安全組。
集群類型
該類型集群由一個(gè)管理節(jié)點(diǎn)和多個(gè)計(jì)算節(jié)點(diǎn)組成。您需要選擇集群部署的調(diào)度器類型,并配置管理節(jié)點(diǎn)。
配置項(xiàng)
說明
系列
選擇標(biāo)準(zhǔn)版。
部署模式
選擇公共云集群。
集群類型
選擇集群的調(diào)度器類型。支持HPC場(chǎng)景常用調(diào)度器,包括Slurm、OpenPBS和Grid Engine。
管理節(jié)點(diǎn)
管理節(jié)點(diǎn)是一臺(tái)部署了調(diào)度器和域賬號(hào)服務(wù)的ECS實(shí)例。請(qǐng)根據(jù)業(yè)務(wù)場(chǎng)景和集群規(guī)模,為管理節(jié)點(diǎn)選擇合適的配置。
付費(fèi)模式
選擇如何為管理節(jié)點(diǎn)付費(fèi)。具體計(jì)費(fèi)說明,請(qǐng)參見實(shí)例規(guī)格計(jì)費(fèi)。
按量付費(fèi):后付費(fèi),按實(shí)際使用時(shí)長(zhǎng)計(jì)費(fèi),不支持搶占式實(shí)例。
包年包月:預(yù)付費(fèi),按周、月、年計(jì)費(fèi)。
實(shí)例規(guī)格
選擇合適的管理節(jié)點(diǎn)規(guī)格。對(duì)于不同規(guī)模的集群,推薦的管理節(jié)點(diǎn)規(guī)格如下:
如果計(jì)算節(jié)點(diǎn)數(shù)≤100個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥16核,內(nèi)存≥64 GiB。
如果100<計(jì)算節(jié)點(diǎn)數(shù)≤500個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥32核,內(nèi)存≥128 GiB。
如果計(jì)算節(jié)點(diǎn)數(shù)>500個(gè),管理節(jié)點(diǎn)規(guī)格建議vCPU≥64核,內(nèi)存≥256 GiB。
鏡像
選擇用于部署管理節(jié)點(diǎn)環(huán)境的鏡像。不同鏡像支持的調(diào)度器不同,以界面顯示為準(zhǔn)。
存儲(chǔ)
選擇管理節(jié)點(diǎn)的系統(tǒng)盤規(guī)格,以及是否掛載數(shù)據(jù)盤。關(guān)于云盤的類型和性能等信息,請(qǐng)參見云盤概述。
超線程
默認(rèn)開啟CPU超線程,如果您的業(yè)務(wù)場(chǎng)景需要獲得更好的性能表現(xiàn),可以關(guān)閉CPU超線程。
自定義選項(xiàng)
配置項(xiàng)
說明
調(diào)度器
根據(jù)選擇的集群類型,以及管理節(jié)點(diǎn)配置的鏡像,選擇要部署的調(diào)度器軟件。
域賬號(hào)
選擇集群部署的域賬戶服務(wù)。
域名解析
保持默認(rèn)。
集群后處理腳本
指在集群計(jì)算任務(wù)完成后,用于處理結(jié)果數(shù)據(jù)或執(zhí)行其他后續(xù)操作的腳本。
集群最大節(jié)點(diǎn)數(shù)
集群允許包含的最大節(jié)點(diǎn)數(shù)量。和集群最大核數(shù)共同控制集群規(guī)模。
集群最大核數(shù)
集群允許包含的最大核數(shù)。和集群最大節(jié)點(diǎn)數(shù)共同控制集群規(guī)模。
集群刪除保護(hù)
設(shè)置是否開啟集群刪除保護(hù)功能。開啟后,需要關(guān)閉功能才能釋放集群,可以避免誤釋放集群。
資源組
資源組用于分組管理資源,具體請(qǐng)參見資源組。集群默認(rèn)屬于默認(rèn)資源組,您可以按需修改。
步驟三:配置計(jì)算節(jié)點(diǎn)與隊(duì)列
在計(jì)算節(jié)點(diǎn)與隊(duì)列頁面,完成隊(duì)列配置。
隊(duì)列用于分組管理計(jì)算節(jié)點(diǎn),運(yùn)行作業(yè)時(shí)可以指定隊(duì)列。集群默認(rèn)存在1個(gè)隊(duì)列(comp隊(duì)列),您可以單擊添加更多隊(duì)列來添加隊(duì)列。單個(gè)隊(duì)列需要配置以下信息:
基本設(shè)置
配置項(xiàng)
說明
隊(duì)列自動(dòng)伸縮
選擇是否開啟自動(dòng)伸縮。開啟后,可進(jìn)一步按需選擇是否開啟自動(dòng)擴(kuò)容和自動(dòng)縮容。
開啟自動(dòng)伸縮后,系統(tǒng)會(huì)根據(jù)配置信息和實(shí)時(shí)負(fù)載,自動(dòng)增加或者減少計(jì)算節(jié)點(diǎn)。
隊(duì)列節(jié)點(diǎn)數(shù)
設(shè)置隊(duì)列包含的節(jié)點(diǎn)數(shù)量。
如果沒有開啟隊(duì)列自動(dòng)伸縮,請(qǐng)配置隊(duì)列初始的計(jì)算節(jié)點(diǎn)數(shù)量。
如果開啟了隊(duì)列自動(dòng)伸縮,請(qǐng)配置隊(duì)列允許的最小節(jié)點(diǎn)數(shù)和最大節(jié)點(diǎn)數(shù)。
重要如果將最小節(jié)點(diǎn)數(shù)修改為非0值,集群縮容時(shí)該隊(duì)列會(huì)保留最小節(jié)點(diǎn)數(shù)量的節(jié)點(diǎn),即使是空閑節(jié)點(diǎn)也不會(huì)被釋放。請(qǐng)您謹(jǐn)慎設(shè)置最小節(jié)點(diǎn)數(shù),以免導(dǎo)致自動(dòng)縮容后隊(duì)列中存在空閑節(jié)點(diǎn),造成資源浪費(fèi)和不必要的經(jīng)濟(jì)損失。
選擇隊(duì)列節(jié)點(diǎn)配置
如果開啟了隊(duì)列自動(dòng)伸縮,或者沒有開啟隊(duì)列自動(dòng)伸縮但初始節(jié)點(diǎn)數(shù)不為0時(shí),需配置以下信息,以便系統(tǒng)可以創(chuàng)建計(jì)算節(jié)點(diǎn)。
配置項(xiàng)
說明
節(jié)點(diǎn)間互聯(lián)
選擇節(jié)點(diǎn)之間網(wǎng)絡(luò)連通方式。
VPC網(wǎng)絡(luò):節(jié)點(diǎn)之間通過VPC網(wǎng)絡(luò)進(jìn)行通信。
eRDMA網(wǎng)絡(luò):如果節(jié)點(diǎn)使用支持ERI的規(guī)格,則節(jié)點(diǎn)之間可以通過eRDMA網(wǎng)絡(luò)進(jìn)行通信。
說明僅部分節(jié)點(diǎn)規(guī)格支持ERI,更多信息,請(qǐng)參見eRDMA概述和在企業(yè)級(jí)實(shí)例上配置eRDMA。
虛擬交換機(jī)
選擇節(jié)點(diǎn)所屬的交換機(jī)。系統(tǒng)會(huì)自動(dòng)從可用的交換機(jī)網(wǎng)段中為節(jié)點(diǎn)分配IP地址。
實(shí)例規(guī)格組
單擊添加實(shí)例規(guī)格,選擇節(jié)點(diǎn)的規(guī)格。
如果未開啟自動(dòng)伸縮,則僅支持添加一個(gè)實(shí)例規(guī)格;如果開啟了自動(dòng)伸縮,則支持添加多個(gè)實(shí)例規(guī)格。
重要您可以選擇多個(gè)虛擬交換機(jī)和多個(gè)實(shí)例規(guī)格作為備選,避免因庫存問題導(dǎo)致實(shí)例創(chuàng)建失敗。創(chuàng)建計(jì)算節(jié)點(diǎn)時(shí),系統(tǒng)會(huì)從第一個(gè)交換機(jī)所在可用區(qū)開始,按照實(shí)例規(guī)格順序嘗試創(chuàng)建,直到創(chuàng)建出滿足所需節(jié)點(diǎn)數(shù)量的計(jì)算節(jié)點(diǎn)。最終創(chuàng)建成功的實(shí)例的規(guī)格可能隨庫存變化而不同。
自動(dòng)伸縮
配置項(xiàng)
說明
伸縮策略
選擇伸縮策略。目前僅支持供應(yīng)優(yōu)先策略,表示會(huì)按照配置的交換機(jī)順序,從對(duì)應(yīng)可用區(qū)依次嘗試創(chuàng)建符合規(guī)格要求的計(jì)算節(jié)點(diǎn)。
單次最大伸縮節(jié)點(diǎn)數(shù)
每輪擴(kuò)容或縮容周期最多增加或減少的節(jié)點(diǎn)數(shù)量。默認(rèn)為0,表示不限制最大數(shù)量。
如果您對(duì)使用成本有要求,可以設(shè)置該值,確保擴(kuò)容的節(jié)點(diǎn)數(shù)量不超出預(yù)期。
主機(jī)名前綴
節(jié)點(diǎn)主機(jī)名的開頭字符,用以標(biāo)記區(qū)分節(jié)點(diǎn)。
主機(jī)名后綴
節(jié)點(diǎn)主機(jī)名的結(jié)尾字符,用以標(biāo)記區(qū)分節(jié)點(diǎn)。
主機(jī)RAM角色
為節(jié)點(diǎn)綁定RAM角色,使得節(jié)點(diǎn)可以獲得權(quán)限訪問阿里云服務(wù)。
建議您選擇系統(tǒng)創(chuàng)建的默認(rèn)角色AliyunECSInstanceForEHPCRole。
步驟四:配置共享文件存儲(chǔ)
在共享文件存儲(chǔ)頁面,完成存儲(chǔ)配置。
默認(rèn)情況下,管理節(jié)點(diǎn)的/home
和/opt
將掛載文件系統(tǒng),作為共享存儲(chǔ)目錄。如果您想要為其他目錄掛載文件系統(tǒng),可單擊添加更多存儲(chǔ),并完成相關(guān)配置。單個(gè)目錄需要配置的文件系統(tǒng)信息如下:
/home
和/opt
目錄暫不支持掛載不同的文件系統(tǒng)目錄。
配置項(xiàng) | 說明 |
類型 | 選擇要掛載的文件系統(tǒng)類型。
|
文件系統(tǒng) | 選擇要掛載的文件系統(tǒng)ID和掛載點(diǎn),請(qǐng)確保該文件系統(tǒng)還有可用的掛載點(diǎn)余量。 |
文件系統(tǒng)目錄 | 輸入要掛載的文件系統(tǒng)目錄。 |
掛載選項(xiàng) | 選擇掛載協(xié)議。 |
步驟五:配置軟件與服務(wù)組件
在軟件與服務(wù)組件頁面,完成軟件和服務(wù)組件配置。
單擊添加軟件,在彈出的對(duì)話框中選擇需要安裝的軟件。E-HPC提供了HPC行業(yè)常用的軟件,您可以按需選擇。
單擊添加服務(wù)組件,在彈出的對(duì)話框中選擇服務(wù)組件,并配置組件參數(shù)。
說明目前僅支持Login組件。
公共云集群默認(rèn)配置了Login組件,用于通過公網(wǎng)遠(yuǎn)程連接集群。組件參數(shù)說明如下:
配置
配置項(xiàng)
說明
Login組件自定義參數(shù)
SSH
設(shè)置通過SSH連接集群時(shí),對(duì)應(yīng)的端口號(hào)、協(xié)議,以及允許的IP網(wǎng)段。
VNC
設(shè)置通過VNC連接集群時(shí),對(duì)應(yīng)的端口號(hào)、協(xié)議,以及允許的IP網(wǎng)段。
CLIENT
設(shè)置通過客戶端連接集群時(shí),對(duì)應(yīng)的端口號(hào)、協(xié)議,以及允許的IP網(wǎng)段。
組件部署資源
EIP實(shí)例
為部署Login組件的ECS實(shí)例綁定EIP,以便可以通過公網(wǎng)連接集群。支持自動(dòng)創(chuàng)建或選擇已有EIP。
ECS實(shí)例
設(shè)置用于部署Login組件的ECS實(shí)例的規(guī)格。
步驟六:確認(rèn)配置
在確認(rèn)配置頁面,確認(rèn)配置信息,并配置集群名稱和登錄憑證。
配置項(xiàng) | 說明 |
集群名稱 | 輸入名稱。該名稱會(huì)在集群列表中顯示,便于您查找識(shí)別。 |
集群免密 | root用戶從管理節(jié)點(diǎn)切換到計(jì)算節(jié)點(diǎn)時(shí),是否可以免密登錄。 重要 開啟該功能,將配置root用戶從管理節(jié)點(diǎn)到所有計(jì)算節(jié)點(diǎn)的單向免密登錄方式,但不支持從計(jì)算節(jié)點(diǎn)到管理節(jié)點(diǎn)的免密登錄,請(qǐng)謹(jǐn)慎操作。 |
登錄憑證 | 選擇登錄集群的憑證。目前僅支持自定義密碼。 |
設(shè)置密碼、確認(rèn)密碼 | 輸入登錄集群的密碼。集群中所有節(jié)點(diǎn)默認(rèn)使用該密碼作為root用戶的登錄密碼。 |
配置完成后,閱讀服務(wù)于協(xié)議,確認(rèn)費(fèi)用信息,然后單擊創(chuàng)建集群。
模板創(chuàng)建
E-HPC支持通過模板來快速、批量創(chuàng)建集群。模板中定義了創(chuàng)建集群需要配置的基本參數(shù),您可以選擇E-HPC提供的集群模板,也可以自定義編寫模板。
使用公共模板創(chuàng)建集群
進(jìn)入集群列表頁面。
在頂部菜單欄左上角處,選擇地域。
在左側(cè)導(dǎo)航欄,單擊集群。
在集群列表頁面,單擊集群模板。
在彈出的對(duì)話框中,選擇要使用的模板,單擊對(duì)應(yīng)的創(chuàng)建集群。
確認(rèn)配置信息,并輸入集群名稱等信息。
在配置概要處,會(huì)顯示模板提供的默認(rèn)配置,如果您想要修改配置,可以單擊編輯,在相應(yīng)配置項(xiàng)中修改。
在管理設(shè)置處,按照頁面提示完成配置。
閱讀服務(wù)協(xié)議,確認(rèn)費(fèi)用信息,然后單擊創(chuàng)建集群。
使用自定義模板創(chuàng)建集群
在本地編寫自定義模板。
進(jìn)入集群列表頁面。
在頂部菜單欄左上角處,選擇地域。
在左側(cè)導(dǎo)航欄,單擊集群。
在集群列表頁面,單擊集群模板。
在彈出的對(duì)話框中,單擊導(dǎo)入本地模板,上傳本地編輯好的模板文件。
在彈出的集群模板編輯對(duì)話框中,確認(rèn)自定義模板信息無誤,然后單擊確認(rèn)模板并創(chuàng)建。
在創(chuàng)建集群頁面,確認(rèn)配置信息無誤,然后單擊創(chuàng)建集群。
相關(guān)文檔
創(chuàng)建集群后,您需要?jiǎng)?chuàng)建用戶來提交作業(yè)。具體操作,請(qǐng)參見用戶管理和作業(yè)概述。