本文匯總了使用E-HPC時的常見問題。
集群相關
為什么某些地域無法創建E-HPC集群?
如果您在E-HPC支持的地域和可用區下,不能創建E-HPC集群。可能是由于該地域不支持創建集群所需的相關資源,或者資源庫存不足。例如:
該地域不支持創建NAS文件系統,或者NAS文件系統的庫存不足,導致E-HPC集群無法掛載共享存儲。
該地域和可用區沒有符合E-HPC集群節點配置的ECS規格,或者ECS規格的庫存不足。
建議您選擇其他地域創建E-HPC集群。
可以使用ECS管理控制臺對E-HPC集群的節點進行操作嗎?
不可以。
E-HPC集群節點是基于ECS實例組建,但E-HPC控制臺提供了額外的部署流程,包括且不限于以下流程:
E-HPC幫助您按節點配比和指定實例規格配置集群節點,為各類節點批量創建ECS實例。
E-HPC創建各個節點對應的ECS實例后,會進一步部署管控系統。
E-HPC通過管控系統為您在ECS實例上預裝選定的軟件及其依賴的軟件包。
E-HPC在管控節點上配置作業調度器。
以上流程都依賴于E-HPC服務部署。若您使用ECS管理控制臺對節點進行操作,則可能會導致集群或部分節點狀態異常,或集群相關資源不可使用等問題。因此不允許使用ECS管理控制臺對E-HPC集群的節點進行操作。
E-HPC的節點實例如何與ECS實例進行私網通信?
根據您的E-HPC集群節點實例和您自行購買的ECS實例是否處于同一VPC,私網通信的配置如下:
處于同一個VPC內,可以直接進行私網通信。
處于不同VPC內,需要打通網絡后才能進行私網通信。您可以通過云企業網CEN、VPC對等實現VPC之間私網互通。
為什么無法通過SSH登錄集群?
使用Workbench或其他SSH客戶端無法登錄集群的原因較多,請您根據實際情況,通過相應的排查方法,排查并解決無法遠程登錄集群的問題。
檢查用戶名密碼是否正確。
檢查客戶端本地網絡或運營商網絡是否異常。
檢查登錄節點所在的安全組規則,是否放行對相應端口(例如SSH協議默認的22端口)的訪問。
檢查節點所在安全組是否允許Workbench服務相關的IP訪問節點,安全組規則詳情和網絡類型有關。具體操作,請參見通過密碼或密鑰認證登錄Linux實例。
使用
iptables -nvL --line-number
檢查登錄節點是否開啟防火墻或配置了防火墻規則。
如果排查后,依然無法登錄集群,您可以選擇VNC方式遠程連接。更多遠程連接問題請參見遠程連接FAQ。
為什么通過SSH登錄NIS域賬號服務的集群時比較慢?
問題描述
SSH登錄節點或者在節點間跳轉時非常慢,偶爾會登錄失敗。
手動重啟sshd服務失敗,顯示
Failed to activate service 'org.freedesktop.systemd1': timed out
。
問題原因
systemd的已知bug,使用NIS域賬號服務時可能會出現該問題。
處理步驟
使用root用戶登錄節點。
查看/etc/nsswitch.conf文件內容。
cat /etc/nsswitch.conf
若passwd、shadow和group中沒有
[NOTFOUND=return]
,請繼續執行以下步驟。示例如下:passwd: files sss nis shadow: files sss nis group: files sss nis
(可選)升級glibc。
yum update glibc
更新nsswitch配置文件。
打開nsswitch.conf文件。
vim /etc/nsswitch.conf
修改nsswitch.conf文件中如下內容并保存。
passwd: files sss nis [NOTFOUND=return] shadow: files sss nis [NOTFOUND=return] group: files sss nis [NOTFOUND=return]
如何進行實名認證以購買中國內地地域云產品服務?
如果您需要購買和使用中國內地地域的云產品服務,例如存量、新購、續費,必須進行實名認證。您進行購買相關操作時,如果選擇了中國內地的地域,系統將檢查您的實名認證信息。若未完成實名認證,購買流程將報錯并要求先進行實名認證。具體操作,請參見國際站賬號實名登記常見問題企業實名認證個人實名認證。
集群內計算節點狀態顯示為“異常”,無法正常調度任務怎么辦?
問題描述
集群內計算節點狀態顯示為“異常”,且無法正常調度任務。如下圖所示:
可能原因
該問題可能是由于您開啟了管理節點上的系統防火墻,導致計算節點上的ypbind
服務無法正常工作,從而引發系統無法正常調度任務的問題。
解決方案
您需要關閉管理節點上的系統防火墻。
以root用戶登錄管理節點。
執行以下命令,停止
firewalld
服務。systemctl stop firewalld
執行以下命令,禁止
firewalld
服務開機啟動。systemctl disable firewalld
執行以下命令,檢查管理節點的
firewalld
服務狀態,確保服務已停止并且不會在啟動時再次啟動。systemctl status firewalld
鏡像相關
支持哪些類型的鏡像?
支持以下幾類鏡像:
公共鏡像:阿里云官方鏡像。
自定義鏡像:您使用ECS實例或者快照創建的鏡像,或者從本地導入的鏡像。
共享鏡像:其他阿里云賬號共享給您的鏡像。
鏡像市場:第三方服務商ISV(Independent Software Vendor)通過阿里云云市場授權提供的鏡像。
社區鏡像:鏡像提供者通過阿里云社區鏡像平臺發布的鏡像。
計算巢部署物:第三方服務商ISV通過阿里云計算巢發布的鏡像。
可以選擇的鏡像由選擇的地域可用區、所登錄賬號本身是否有相關鏡像資源,以及選擇的節點實例規格決定,以界面顯示為準。
為什么不能選擇自定義鏡像?
創建集群、擴容集群或配置自動伸縮策略時,如果無法選擇自定義鏡像,可能有以下原因:
您的阿里云賬號在當前地域下沒有自定義鏡像,關于如何創建自定義鏡像,請參見自定義鏡像概述。
自定義鏡像操作系統為E-HPC不支持的操作系統。
當前選擇的節點實例規格不支持該自定義鏡像。
配置自動伸縮策略時,自動伸縮全局配置中鏡像和隊列鏡像應保持一致。
為什么使用自定義鏡像創建或擴容集群會失敗?
創建或擴容集群時,可以選擇自定義鏡像,但可能會出現創建或擴容失敗的情況。操作前,請注意以下限制:
自定義鏡像中不能修改操作系統的yum源配置。
自定義鏡像的掛載路徑不能有
/home
和/opt
目錄,并且/home
和/opt
目錄不能作為軟鏈接目標。如果自定義鏡像內的
/etc/fstab
文件中,存在文件系統(如nfs)的掛載信息,那么需要確保擴容或創建的集群能夠訪問該文件系統,例如集群與文件系統在同一VPC內。否則,您需要刪除/etc/fstab
文件中掛載文件系統的相關內容,再進行擴容或創建集群的操作。自定義鏡像中必須保留賬戶群組GID為1000的群組。
擴容或創建集群所指定的系統盤大小必須大于等于自定義鏡像大小。
是否支持導入的自定義鏡像?
E-HPC僅支持使用導入的CentOS鏡像。關于如何導入鏡像,請參見導入鏡像流程。
導入鏡像時,請務必選中導入后執行檢測,否則可能無法在E-HPC控制臺識別該鏡像。
軟件相關
如何在E-HPC集群中手動安裝業務軟件?
E-HPC集群使用NAS實現計算節點間的數據共享,因此自行手動安裝業務軟件有以下兩種方案:
安裝在
/opt
目錄,該方案下所有集群用戶可以訪問并使用業務軟件。安裝在集群用戶的home目錄,一般情況下僅該集群用戶可以訪問并使用。
某些軟件需要在計算節點安裝驅動或者運行環境等,例如GPU驅動、YUM安裝的包等。在計算節點獨立安裝軟件后,您可以使用該節點制作的自定義鏡像來擴容節點,實現自動化安裝。
存儲相關
存儲相關
如何配置NAS遠程掛載目錄?
創建集群時需要指定NAS的掛載點和遠程目錄,假如您的集群配置信息如下:
ClusterId=ehpc-mrZSoWf**** # E-HPC集群ID
VolumeMountpoint=045324****-m****.cn-hangzhou.nas.aliyuncs.com # NAS掛載點
RemotePath=/ # NAS遠程目錄
在新創建的集群的節點上(比如計算節點),默認的掛載NAS邏輯如下:
您可以根據業務需要,自定義掛載的NAS遠程目錄。自定義掛載遠程目錄時,請提前創建相應的掛載點和遠程目錄。
配額相關
最多可以創建多少個集群?
一個地域下最多可以創建3個集群,如需提高額度,請提交工單。
最多可以創建多少個節點?
一個集群內最多可以創建500個節點,一次最多可以擴容500個計算節點。如需提高額度,請提交工單。
權限相關
什么是角色授權?
彈性高性能計算服務關聯角色(AliyunServiceRoleForEHPC)是訪問控制提供的一種服務關聯角色,用于授權E-HPC訪問關聯云資源。通過AliyunServiceRoleForEHPC,E-HPC可以獲得云服務器ECS、專有網絡VPC、文件存儲NAS等阿里云產品的訪問權限。
如果您的賬號沒有完成彈性高性能計算服務關聯角色的授權,需要完成角色授權。更多操作,請參見E-HPC服務關聯角色。
為什么RAM用戶無法登錄控制臺查看E-HPC信息?
如果RAM用戶沒有授權AliyunEHPCReadOnlyAccess權限,會一直提示前往RAM進行授權,需添加AliyunEHPCReadOnlyAccess權限才能查看E-HPC信息。
如果需要創建集群、創建用戶、創建作業等操作,需添加AliyunEHPCFullAccess和AliyunNASFullAccess權限。具體操作,請參見為RAM用戶授權。