通過云助手插件一鍵診斷GPU
通過云助手插件可以對當前實例的GPU卡狀態(tài)或驅(qū)動狀態(tài)等方面進行全方位診斷,幫助您快速檢測使用GPU時遇到的一些常見問題(例如GPU卡異常、驅(qū)動異常等),一旦診斷出異常情況,可以自動發(fā)起運維動作,例如發(fā)送通知給用戶等。
操作步驟
本文適用于診斷Linux操作系統(tǒng)GPU實例,該GPU實例在創(chuàng)建時已默認預(yù)裝了云助手插件,關(guān)于云助手的詳細信息,請參見云助手概述。
登錄ECS管理控制臺。
在左側(cè)導(dǎo)航欄,選擇 。
在頁面左側(cè)頂部,選擇目標GPU實例所在地域。
在ECS實例頁簽下的實例列表,選擇目標實例,單擊對應(yīng)操作欄下的執(zhí)行命令。
在創(chuàng)建執(zhí)行命令面板的命令信息區(qū)域,完成參數(shù)配置。
主要參數(shù)配置項如下所示,其他參數(shù)保持默認。更多信息,請參見創(chuàng)建命令。
重要參數(shù)取值必須按照下文提供的取值來設(shè)置,否則可能會導(dǎo)致云助手執(zhí)行失敗。
①命令類型:選擇Shell。
②命令內(nèi)容:粘貼如下命令。有關(guān)Shell命令的示例,請參見查看實例系統(tǒng)配置。
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1 then acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck fi acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck
③超時時間:命令執(zhí)行超時時間。當執(zhí)行命令的任務(wù)超時后,云助手將強制終止任務(wù)進程。取值:180。
說明超時時間僅支持設(shè)置為正整數(shù),單位為秒,取值范圍:10~86400秒(24小時)。
單擊執(zhí)行,通過云助手命令診斷GPU實例健康狀態(tài)。
執(zhí)行結(jié)果中各檢查項均顯示
OK
狀態(tài),表示GPU診斷無異常。執(zhí)行結(jié)果中某個或多個檢查項顯示
Failed
狀態(tài),表示GPU診斷出現(xiàn)異常(例如Double Bit Error Check
)。
診斷項和診斷結(jié)果說明
通過云助手插件一鍵診斷GPU狀態(tài),具體診斷項說明如下:
診斷項 | 診斷說明 | 異常處理措施 |
Double Bit Error Check | 檢測GPU的Double Bit Error情況 | 根據(jù)錯誤數(shù)不同會提示用戶重啟實例。 |
Info Rom Corrupted Check | 檢測GPU的infoROM固件信息 | 會向用戶發(fā)送運維通知。 |
eRDMA Incorrect Check | 檢測GPU的eRDMA網(wǎng)卡狀態(tài) | 會向用戶發(fā)送運維通知。 |
Kernel Upgrade Check | 檢測由于Kernel升級導(dǎo)致驅(qū)動異常情況 | 需要用戶卸載驅(qū)動后重新安裝驅(qū)動。 |
Fabricmanager running Check | 檢測Fabricmanager組件運行狀態(tài) | 需要用戶安裝或啟動Fabricmanager組件服務(wù)。 |
Power Cable Error Check | 檢測GPU電源線及供電狀態(tài) | 會向用戶發(fā)送運維通知。 |
GPU Device Lost Check | 檢測GPU丟卡情況 | 會向用戶發(fā)送運維通知。 |
GPU Driver Install Check | 檢測GPU驅(qū)動的安裝狀態(tài) | 需要用戶安裝驅(qū)動。 |
GPU Xid Error Check | 檢測GPU Xid error異常情況 | 根據(jù)不同的XID錯誤提示用戶重啟實例。 |