批量計算支持自動化搭建 Sun Grid Engine(SGE)集群。
批量計算使用的是 CentOS 自帶的 SGE 版本,請參考 SGE 。
批量計算提供了名為 BatchCompute SGE 的公共鏡像,使用該鏡像可快速、可靠的構建 SGE 集群,具體的流程如下:
請在云市場 搜索關鍵字 BatchCompute SGE 了解該鏡像,它完全免費使用,使用流程請參考 如何通過鏡像創建實例 。
2. 自定義鏡像(可選)
本步驟可選,如對鏡像沒有特殊需求,可直接進入下一步。如果需要在此系統鏡像基礎上安裝軟件,必須基于 BatchCompute SGE 制作自定義鏡像 。
必須在 BatchCompute SGE V1.1 版本鏡像基礎上制作新鏡像。
BatchCompute SGE V1.1 版本在原有支持命令行創建 SGE 集群的基礎上,推出控制臺一鍵創建 SGE 集群。無需用戶通過命令行創建、擴容,以及刪除 SGE集群操作。
制作鏡像過程中,請務必不要執行任何有關 SGE 的命令,并且不要更新 python 。
鏡像制作完成后需要注冊給 BatchCompute 。
3. 控制臺創建 SGE 集群
3.1. 設置集群名稱和鏡像
登錄到 BatchCompute 控制臺,確定集群所在的 Region 點擊創建集群按鈕,準備集群創建。
選擇創建 SGE 集群,若采用系統鏡像則選擇 sge-centos-vpc-x64(官網提供);若是采用自定義鏡像則選擇注冊的自定義鏡像。設置完成后進行下一步:
3.2. 設置組信息
根據業務需求配置 SgeMaster 的實例類型和鏡像 ID。
SGE work節點支持設置多個組;組間實例類型、實例個數以及鏡像ID 可以互不相同。
SGE 集群內所有 work 節點都可以在 Master 節點通過
ssh hostname
進行免密登錄。SGE 集群內所有 work 節點之間網絡互通,不支持免密登錄。
SGE Master 屬于單獨的一個組,實例類型支持和 work 不同,組內節點個數有且只有一個
3.3. 設置掛載信息
根據需求配置數據盤信息,NAS/OSS 掛載信息。
若添加了 OSS 掛載到本地,則只支持 OSS 的讀操作。
若寫數據到 OSS 映射到 VM 本地路徑上,則數據無法上傳到 OSS 對象中,節點重啟后數據丟失。
3.4. 設置網絡信息
可以將網絡設置到指定的 VPC ;也可以采用默認網絡設置配置集群
若掛載有 NAS 時,網絡設置必須和 NAS 保持在同一個 VPC 內;否則無法正常掛載 NAS 。
SGE 集群只支持 VPC 網絡。
3.5. 設置環境變量
根據業務需要進行環境變量配置操作
3.6. 提交創建操作
設置完成后提交集群創建即可。提交成功后可以看到集群處于初始化狀態。
4. SGE 集群查看
在集群列表頁面,點擊 “查看” 可以進入 SGE 集群的詳細信息頁面
4.1. 集群狀態顯示
4.2. 集群掛載顯示
4.3. 集群實例組顯示
展示各個組內實例的類型、個數以及鏡像信息。
SGE 集群支持按組做擴容或者縮容操作
支持按組展開組內實例列表信息,查看實例在 VPC 內的 IP以及登錄密碼信息;
4.4. 集群實例列表顯示
該頁面顯示實例ID、名稱、hostname 以及機器IP 登錄密碼等信息。
密碼信息獲取關閉密碼隱藏功能方可獲取。
支持采用 VNC 登錄方式登錄到實例節點
4.4. 集群操作日志顯示
顯示集群的歷史操作信息
5. SGE 集群擴容縮容
在 BatchCompute 控制臺,找到指定的 SGE 集群。進入到集群詳細信息標簽頁,在對應的實例組中直接修改期望的實例個數,點擊“修改”即可。
Master 組不支持進行擴容或者縮容操作
6. SGE 集群刪除
在 BatchCompute 控制臺,找到指定的 SGE 集群。進入到集群詳細信息標簽頁,點擊“刪除”按鈕,即可刪除對應的集群。
7. 登錄 SGE Master 節點
在 BatchCompute 控制臺,找到指定的 SGE 集群。進入到詳細信息標簽頁,在對應的實例組 “sgeMasterGroup”中查看實例列表信息,可以獲取 Master 節點的公網 IP 以及登錄密碼信息。
使用 ssh 命令登錄到 Master 節點,務必使用 root 用戶。
ssh root@<外網IP>
進入Master 節點后,通過 SGE 相關命令對集群進行配置提交作業操作。
集群啟動需要一定時間,進入 Master 后執行 SGE 命令出現無法執行,請稍等片刻后重試即可。