本文匯總了使用E-HPC時的常見問題。
集群相關
為什么某些地域無法創建E-HPC集群?
如果您在E-HPC支持的地域和可用區下,不能創建E-HPC集群。可能是由于該地域不支持創建集群所需的相關資源,或者資源庫存不足。例如:
該地域不支持創建NAS文件系統,或者NAS文件系統的庫存不足,導致E-HPC集群無法掛載共享存儲。
該地域和可用區沒有符合E-HPC集群節點配置的ECS規格,或者ECS規格的庫存不足。
建議您選擇其他地域創建E-HPC集群。
可以使用ECS管理控制臺對E-HPC集群的節點進行操作嗎?
不可以。
E-HPC集群節點是基于ECS實例組建,但E-HPC控制臺提供了額外的部署流程,包括且不限于以下流程:
E-HPC幫助您按節點配比和指定實例規格配置集群節點,為各類節點批量創建ECS實例。
E-HPC創建各個節點對應的ECS實例后,會進一步部署管控系統。
E-HPC通過管控系統為您在ECS實例上預裝選定的軟件及其依賴的軟件包。
E-HPC在管控節點上配置作業調度器。
以上流程都依賴于E-HPC服務部署。若您使用ECS管理控制臺對節點進行操作,則可能會導致集群或部分節點狀態異常,或集群相關資源不可使用等問題。因此不允許使用ECS管理控制臺對E-HPC集群的節點進行操作。
E-HPC的節點實例如何與ECS實例進行私網通信?
根據您的E-HPC集群節點實例和您自行購買的ECS實例是否處于同一VPC,私網通信的配置如下:
處于同一個VPC內,可以直接進行私網通信。
處于不同VPC內,需要打通網絡后才能進行私網通信。您可以通過云企業網CEN、VPC對等實現VPC之間私網互通。
為什么無法通過SSH登錄集群?
使用Workbench或其他SSH客戶端無法登錄集群的原因較多,請您根據實際情況,通過相應的排查方法,排查并解決無法遠程登錄集群的問題。
檢查用戶名密碼是否正確。
檢查客戶端本地網絡或運營商網絡是否異常。
檢查登錄節點所在的安全組規則,是否放行對相應端口(例如SSH協議默認的22端口)的訪問。
檢查節點所在安全組是否允許Workbench服務相關的IP訪問節點,安全組規則詳情和網絡類型有關。具體操作,請參見通過密碼或密鑰認證登錄Linux實例。
使用
iptables -nvL --line-number
檢查登錄節點是否開啟防火墻或配置了防火墻規則。
如果排查后,依然無法登錄集群,您可以選擇VNC方式遠程連接。更多遠程連接問題請參見遠程連接FAQ。
為什么通過SSH登錄NIS域賬號服務的集群時比較慢?
問題描述
SSH登錄節點或者在節點間跳轉時非常慢,偶爾會登錄失敗。
手動重啟sshd服務失敗,顯示
Failed to activate service 'org.freedesktop.systemd1': timed out
。
問題原因
systemd的已知bug,使用NIS域賬號服務時可能會出現該問題。
處理步驟
使用root用戶登錄節點。
查看/etc/nsswitch.conf文件內容。
cat /etc/nsswitch.conf
若passwd、shadow和group中沒有
[NOTFOUND=return]
,請繼續執行以下步驟。示例如下:passwd: files sss nis shadow: files sss nis group: files sss nis
(可選)升級glibc。
yum update glibc
更新nsswitch配置文件。
打開nsswitch.conf文件。
vim /etc/nsswitch.conf
修改nsswitch.conf文件中如下內容并保存。
passwd: files sss nis [NOTFOUND=return] shadow: files sss nis [NOTFOUND=return] group: files sss nis [NOTFOUND=return]
集群自動伸縮過程中管控節點可以停機嗎?
由于自動伸縮服務依賴于調度器服務和域賬號服務運行正常,因此在集群自動伸縮過程中,管控節點需要一直保持運行中。如果在開啟自動伸縮后停止管控節點,可能會導致自動伸縮決策失誤從而出現一些異常問題。
如果管控節點需要關機或者重啟,請在計算節點沒有作業運行,并且自動伸縮已經釋放了空閑節點后再進行操作。此時,建議您先關閉自動伸縮,在管控節點重新啟動后,再開啟自動伸縮。
為什么Slurm集群配置自動伸縮策略后增加節點會失敗?
使用Slurm調度器的集群默認有8個DummyNode,假設當前集群擁有5個計算節點,那么您提交的單個Slurm作業最多可以使用13個節點。如果希望使用更多節點運行單個作業,需要手動擴容計算節點,或增加DummyNode的數量。增加DummyNode數量的步驟如下:
以root用戶登錄集群。具體操作,請參見登錄集群。
在
/opt/slurm/<slurm_version>/nodes
目錄下新增DummyNode文件。假設您的作業需要18個節點,由于集群默認有8個DummyNode,則需要新增10個DummyNode,即增加dummynode8~dummynode17共10個文件,文件內容可以拷貝dummynode0文件的內容。
說明<slurm_version>為您集群中Slurm調度器版本。
在/
opt/slurm/<slurm_version>/etc/slurm.conf
文件中,找到PartitionName
行,新增DummyNode信息。新增的DummyNode信息如下所示:
PartitionName=comp Nodes=dummynode0,dummynode1,dummynode2,dummynode3,dummynode4,dummynode5,dummynode6,dummynode7,dummynode8,dummynode9,dummynode10,dummynode11,dummynode12,dummynode13,dummynode14,dummynode15,dummynode16,dummynode17,compute000 Default=YES MaxTime=INFINITE State=UP
創建Slurm集群時,調度器選擇哪個版本?
創建E-HPC集群時,在2.軟件配置頁面您可以選擇調度器類型。目前E-HPC支持多個版本的Slurm調度器。如果您的業務對調度器版本沒有特殊要求,建議選擇最新的Slurm調度器版本來創建集群。當前E-HPC支持的Slurm調度器最新版本為slurm22。
如何進行實名認證以購買中國內地地域云產品服務?
如果您需要購買和使用中國內地地域的云產品服務,例如存量、新購、續費,必須進行實名認證。您進行購買相關操作時,如果選擇了中國內地的地域,系統將檢查您的實名認證信息。若未完成實名認證,購買流程將報錯并要求先進行實名認證。具體操作,請參見國際站賬號實名登記常見問題企業實名認證和個體工商戶認證個人實名認證。
集群內計算節點狀態顯示為“異常”,無法正常調度任務怎么辦?
問題描述
集群內計算節點狀態顯示為“異常”,且無法正常調度任務。如下圖所示:
可能原因
該問題可能是由于您開啟了管理節點上的系統防火墻,導致計算節點上的ypbind
服務無法正常工作,從而引發系統無法正常調度任務的問題。
解決方案
您需要關閉管理節點上的系統防火墻。
以root用戶登錄管理節點。
執行以下命令,停止
firewalld
服務。systemctl stop firewalld
執行以下命令,禁止
firewalld
服務開機啟動。systemctl disable firewalld
執行以下命令,檢查管理節點的
firewalld
服務狀態,確保服務已停止并且不會在啟動時再次啟動。systemctl status firewalld
鏡像相關
支持哪些類型的鏡像?
支持以下幾類鏡像:
公共鏡像:阿里云官方鏡像。
自定義鏡像:您使用ECS實例或者快照創建的鏡像,或者從本地導入的鏡像。
共享鏡像:其他阿里云賬號共享給您的鏡像。
鏡像市場:第三方服務商ISV(Independent Software Vendor)通過阿里云云市場授權提供的鏡像。
社區鏡像:鏡像提供者通過阿里云社區鏡像平臺發布的鏡像。
計算巢部署物:第三方服務商ISV通過阿里云計算巢發布的鏡像。
可以選擇的鏡像由選擇的地域可用區、所登錄賬號本身是否有相關鏡像資源,以及選擇的節點實例規格決定,以界面顯示為準。
為什么不能選擇自定義鏡像?
創建集群、擴容集群或配置自動伸縮策略時,如果無法選擇自定義鏡像,可能有以下原因:
您的阿里云賬號在當前地域下沒有自定義鏡像,關于如何創建自定義鏡像,請參見自定義鏡像概述。
自定義鏡像操作系統為E-HPC不支持的操作系統。
當前選擇的節點實例規格不支持該自定義鏡像。
配置自動伸縮策略時,自動伸縮全局配置中鏡像和隊列鏡像應保持一致。
為什么使用自定義鏡像創建或擴容集群會失敗?
創建或擴容集群時,可以選擇自定義鏡像,但可能會出現創建或擴容失敗的情況。操作前,請注意以下限制:
自定義鏡像中不能修改操作系統的yum源配置。
自定義鏡像的掛載路徑不能有
/home
和/opt
目錄,并且/home
和/opt
目錄不能作為軟鏈接目標。如果自定義鏡像內的
/etc/fstab
文件中,存在文件系統(如nfs)的掛載信息,那么需要確保擴容或創建的集群能夠訪問該文件系統,例如集群與文件系統在同一VPC內。否則,您需要刪除/etc/fstab
文件中掛載文件系統的相關內容,再進行擴容或創建集群的操作。自定義鏡像中必須保留賬戶群組GID為1000的群組。
擴容或創建集群所指定的系統盤大小必須大于等于自定義鏡像大小。
是否支持導入的自定義鏡像?
E-HPC僅支持使用導入的CentOS鏡像。關于如何導入鏡像,請參見導入鏡像流程。
導入鏡像時,請務必選中導入后執行檢測,否則可能無法在E-HPC控制臺識別該鏡像。
軟件相關
如何在E-HPC集群中手動安裝業務軟件?
E-HPC集群使用NAS實現計算節點間的數據共享,因此自行手動安裝業務軟件有以下兩種方案:
安裝在
/opt
目錄,該方案下所有集群用戶可以訪問并使用業務軟件。安裝在集群用戶的home目錄,一般情況下僅該集群用戶可以訪問并使用。
某些軟件需要在計算節點安裝驅動或者運行環境等,例如GPU驅動、YUM安裝的包等。在計算節點獨立安裝軟件后,您可以使用該節點制作的自定義鏡像來擴容節點,實現自動化安裝。
存儲相關
如何配置NAS遠程掛載目錄?
創建集群時需要指定NAS的掛載點和遠程目錄,假如您的集群配置信息如下:
ClusterId=ehpc-mrZSoWf**** # E-HPC集群ID
VolumeMountpoint=045324****-m****.cn-hangzhou.nas.aliyuncs.com # NAS掛載點
RemotePath=/ # NAS遠程目錄
在新創建的集群的節點上(比如計算節點),默認的掛載NAS邏輯如下:
您可以根據業務需要,自定義掛載的NAS遠程目錄。自定義掛載遠程目錄時,請提前創建相應的掛載點和遠程目錄。
配額相關
最多可以創建多少個集群?
一個地域下最多可以創建3個集群,如需提高額度,請提交工單。
最多可以創建多少個節點?
一個集群內最多可以創建500個節點,一次最多可以擴容500個計算節點。如需提高額度,請提交工單。
權限相關
什么是角色授權?
彈性高性能計算服務關聯角色(AliyunServiceRoleForEHPC)是訪問控制提供的一種服務關聯角色,用于授權E-HPC訪問關聯云資源。通過AliyunServiceRoleForEHPC,E-HPC可以獲得云服務器ECS、專有網絡VPC、文件存儲NAS等阿里云產品的訪問權限。
如果您的賬號沒有完成彈性高性能計算服務關聯角色的授權,需要完成角色授權。更多操作,請參見E-HPC服務關聯角色。
為什么RAM用戶無法登錄控制臺查看E-HPC信息?
如果RAM用戶沒有授權AliyunEHPCReadOnlyAccess權限,會一直提示前往RAM進行授權,需添加AliyunEHPCReadOnlyAccess權限才能查看E-HPC信息。
如果需要創建集群、創建用戶、創建作業等操作,需添加AliyunEHPCFullAccess和AliyunNASFullAccess權限。具體操作,請參見為RAM用戶授權。