功能特性
彈性高性能計(jì)算集群
自動(dòng)化創(chuàng)建和管理HPC集群,提供常見(jiàn)的HPC調(diào)度器,支持公共云部署和線(xiàn)下集群Cloud Busrting能力。
功能集 |
功能 |
功能描述 |
參考文檔 |
集群管理 |
隊(duì)列管理 |
提供集群隊(duì)列功能,用于劃分計(jì)算資源,調(diào)度用戶(hù)作業(yè),以及管理用戶(hù)使用優(yōu)先級(jí)和配額。 |
管理隊(duì)列 |
用戶(hù)管理 |
提供集群用戶(hù)管理功能,內(nèi)建或者接入集群用戶(hù)賬號(hào)系統(tǒng),用于集群的認(rèn)證授權(quán)和權(quán)限控制。 |
用戶(hù)管理 | |
軟件與應(yīng)用 |
集成操作系統(tǒng)、運(yùn)行時(shí)依賴(lài)的數(shù)學(xué)庫(kù)、通信庫(kù)或開(kāi)發(fā)調(diào)試工具。提供常見(jiàn)的行業(yè)軟件與應(yīng)用。 |
管理集群軟件應(yīng)用 | |
自定義服務(wù) |
安裝自定義服務(wù)組件,能與集群服務(wù)聯(lián)通,提供額外附加功能和使用界面,以類(lèi)SaaS化方案幫助用戶(hù)使用集群資源。 |
管理集群自定義服務(wù) | |
資源管理 |
計(jì)算資源管理 |
創(chuàng)建和釋放不同規(guī)格的計(jì)算資源,安裝配置計(jì)算環(huán)境和軟件應(yīng)用,自動(dòng)加入和移除集群,支持按隊(duì)列劃分節(jié)點(diǎn)。 |
管理節(jié)點(diǎn) |
存儲(chǔ)資源管理 |
掛載和卸載不同類(lèi)型的存儲(chǔ)資源,包括文件存儲(chǔ)、塊存儲(chǔ)和對(duì)象存儲(chǔ)等。 |
管理集群共享存儲(chǔ) | |
網(wǎng)絡(luò)資源管理 |
支持計(jì)算網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)和管理網(wǎng)絡(luò)的設(shè)置,提供集群外網(wǎng)訪(fǎng)問(wèn)和節(jié)點(diǎn)間高速互聯(lián)的功能,以及安全隔離的管控要求。 |
配置集群 | |
自動(dòng)伸縮服務(wù) |
集群以隊(duì)列維度,根據(jù)作業(yè)負(fù)載自動(dòng)伸縮集群大小。自動(dòng)創(chuàng)建計(jì)算資源并加入集群,執(zhí)行用戶(hù)作業(yè),并在完成后自動(dòng)釋放。 |
配置自動(dòng)伸縮 | |
作業(yè)調(diào)度 |
作業(yè)管理 |
使用集群提供的調(diào)度服務(wù),創(chuàng)建和提交大規(guī)模的作業(yè),使用CPU、GPU或容器等集群資源完成計(jì)算任務(wù),支持隊(duì)列和優(yōu)先級(jí)。 |
|
告警通知 |
提供內(nèi)置指標(biāo)或自定義指標(biāo)的告警服務(wù),支持短信、釘釘?shù)榷嗲劳ㄖ脩?hù)。 |
配置告警通知 | |
監(jiān)控告警 |
運(yùn)行監(jiān)控 |
提供集群、資源、作業(yè)的運(yùn)行監(jiān)控服務(wù),按隊(duì)列、用戶(hù)、項(xiàng)目等維度展示集群服務(wù)狀態(tài),資源使用效率以及作業(yè)執(zhí)行情況的可視化圖表。 |
查看E-HPC的監(jiān)控信息 |
日志審計(jì) |
日志審計(jì) |
為所有集群關(guān)鍵活動(dòng),如創(chuàng)建和釋放節(jié)點(diǎn)提供詳細(xì)的日志功能,幫助集群IT管理員或用戶(hù)進(jìn)行故障定位和安全審計(jì)。 |
查看E-HPC的操作日志 |