作業指提交到E-HPC集群進行高性能計算的基本工作單元,包括Shell腳本、可執行文件等,具體作業執行順序根據您設置的隊列以及調度器決定。E-HPC管理控制臺提供了作業相關的提交作業、停止作業、查看作業狀態等功能,本文介紹如何使用E-HPC管理控制臺提交作業。
前提條件
集群和集群節點狀態都為運行中。
已創建用戶,具體操作,請參見管理用戶。
已準備好作業文件。E-HPC支持多種方式導入作業文件:
提前登錄集群,通過rsync、scp等遠程傳輸方式將作業導入到集群中。
上傳作業數據到OSS,提交作業時選擇OSS Bucket中的作業文件。
選擇本地保存的作業文件或新建作業文件。
操作步驟
登錄彈性高性能計算控制臺。
在頂部菜單欄左上角處,選擇地域。
在左側導航欄,選擇作業性能與性能管理>作業。
在作業頁面,選擇待提交作業的集群。
單擊提交作業頁簽。
在提交作業區域,完成作業參數配置。
配置項
描述
作業提交模板
您也可以選擇已配置的作業模板快速提交作業。更多信息,請參見使用作業模板。
作業名
該作業的名稱。如需自動下載解壓作業文件,解壓目錄也以作業名命名。
作業執行命令
向調度器提交的作業執行命令,可以是腳本文件(如/home/test目錄下的job.pbs),也可以是一段命令文本。有以下兩種情況:
腳本文件可執行,填寫相對路徑,如
./job.pbs
。腳本文件沒有可執行權限,則需要填寫執行命令,如:
/opt/mpi/bin/mpirun /home/test/job.pbs
。如果是PBS調度器,還需要在命令前加--
,如:--/opt/mpi/bin/mpirun /home/test/job.pbs
。
調度器隊列
在創建集群時,若計算節點已加入了指定的隊列,則需要將作業提交到對應的指定隊列;若沒有指定,則默認將作業提交到調度器的默認隊列中。選擇的隊列應與計算節點相對應,否則作業會執行失敗。
計算節點數
用來運行此作業的計算節點數。
任務數
每個計算節點運行此作業使用的任務數,即進程數。
最大內存
每個計算節點運行此作業可使用的最大內存,為空時不限制內存大小。
最大運行時間
作業最長運行時間,超時作業將失敗,為空時不限制運行時間。
線程數
每個任務所使用的線程數,為空時線程數為1。
GPU數
每個計算節點運行此作業使用的GPU數。使用該參數時請確認計算節點為GPU實例。
作業優先級
作業優先級,取值范圍0~9,取值越大,優先級越高。如果集群的調度策略設置為根據優先級調度,高優先級的作業會被優先調度運行。
在提交了多個作業時,對于需要優先執行的作業,您可以通過設置高優先級來優先執行。
啟動job array
是否啟用調度器的job array功能。job array可自定義選擇執行作業的規則。
作業隊列長度設置格式X-Y[:Z], 最小值X是第一個索引,最大值Y是最后一個索引,Z表示步長,例如2-7:2, 表示生成的job array包含編號為2,4,6的3個子作業,如果Z不指定的話,默認是1。
后處理命令
后處理命令在作業成功執行完成后執行,用于對作業結果做后續處理,如打包上傳OSS等。
標準輸出路徑
定義Linux系統的stderr/stdout輸出重定向路徑,包含輸出文件名。
stdout:標準文件輸出路徑。
stderr:錯誤文件輸出路徑。
集群用戶必須有該路徑的可寫權限,默認按照調度器設置生成輸出文件。
錯誤輸出路徑
作業變量
傳遞到作業的運行時變量,可以在作業執行文件中通過環境變量訪問。
上傳作業文件到集群中。
使用OSS文件
E-HPC支持提交作業前導入作業文件或在E-HPC控制臺選擇OSS中的作業文件。關于如何導入作業文件,請參見導入OSS作業文件到集群中。在E-HPC控制臺選擇OSS中的作業文件如下所示:
在使用OSS文件區域,單擊選擇文件,在彈出的選擇文件對話框中,選擇作業文件,單擊確定。
如果作業文件為zip格式、tar格式或者gzip格式的壓縮包,需開啟下載后解壓,并選擇解壓命令。
說明OSS中的作業文件或作業文件壓縮包,都會在作業執行前下載到以作業名命名的目錄中,例如作業名為JobName,那么作業文件會被下載到/home/user/JobName目錄下,壓縮包會被下載并解壓到/home/user/JobName目錄下。
編輯作業文件
單擊作業文件編輯頁簽。
在作業文件編輯區域,單擊瀏覽集群文件,輸入集群用戶名和密碼,即可以Workbench方式登錄集群。您可以根據業務需要,創建、編輯、刪除作業文件。
返回至提交作業區域,單擊頁面右上角的提交作業,在彈出的對話框中輸入集群用戶名和密碼。將作業提交至集群,開始執行。
執行結果
提交作業完成后,在作業列表頁即可查看已提交的作業。
單擊該作業操作列的詳情。在彈出的作業信息面板頁,即可查看作業的詳細信息,包括作業名稱、作業ID、開始時間、最后更新時間、作業運行信息等。