日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

通過云助手插件一鍵診斷GPU

通過云助手插件可以對當前實例的GPU卡狀態(tài)或驅(qū)動狀態(tài)等方面進行全方位診斷,幫助您快速檢測使用GPU時遇到的一些常見問題(例如GPU卡異常、驅(qū)動異常等),一旦診斷出異常情況,可以自動發(fā)起運維動作,例如發(fā)送通知給用戶等。

操作步驟

說明

本文適用于診斷Linux操作系統(tǒng)GPU實例,該GPU實例在創(chuàng)建時已默認預(yù)裝了云助手插件,關(guān)于云助手的詳細信息,請參見云助手概述

  1. 登錄ECS管理控制臺

  2. 在左側(cè)導(dǎo)航欄,選擇運維與監(jiān)控 > 云助手

  3. 在頁面左側(cè)頂部,選擇目標GPU實例所在地域。

  4. ECS實例頁簽下的實例列表,選擇目標實例,單擊對應(yīng)操作欄下的執(zhí)行命令

  5. 創(chuàng)建執(zhí)行命令面板的命令信息區(qū)域,完成參數(shù)配置。

    主要參數(shù)配置項如下所示,其他參數(shù)保持默認。更多信息,請參見創(chuàng)建命令

    重要

    參數(shù)取值必須按照下文提供的取值來設(shè)置,否則可能會導(dǎo)致云助手執(zhí)行失敗。

    云助手.jpg

    命令類型:選擇Shell

    ②命令內(nèi)容:粘貼如下命令。有關(guān)Shell命令的示例,請參見查看實例系統(tǒng)配置

    if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
    then
        acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
    fi
    acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck

    超時時間:命令執(zhí)行超時時間。當執(zhí)行命令的任務(wù)超時后,云助手將強制終止任務(wù)進程。取值:180

    說明

    超時時間僅支持設(shè)置為正整數(shù),單位為秒,取值范圍:10~86400秒(24小時)。

  6. 單擊執(zhí)行,通過云助手命令診斷GPU實例健康狀態(tài)。

    • 執(zhí)行結(jié)果中各檢查項均顯示OK狀態(tài),表示GPU診斷無異常。

      GPU State.jpg

    • 執(zhí)行結(jié)果中某個或多個檢查項顯示Failed狀態(tài),表示GPU診斷出現(xiàn)異常(例如Double Bit Error Check)。

      GPU State-en.jpg

診斷項和診斷結(jié)果說明

通過云助手插件一鍵診斷GPU狀態(tài),具體診斷項說明如下:

診斷項

診斷說明

異常處理措施

Double Bit Error Check

檢測GPU的Double Bit Error情況

根據(jù)錯誤數(shù)不同會提示用戶重啟實例。

Info Rom Corrupted Check

檢測GPU的infoROM固件信息

會向用戶發(fā)送運維通知。

eRDMA Incorrect Check

檢測GPU的eRDMA網(wǎng)卡狀態(tài)

會向用戶發(fā)送運維通知。

Kernel Upgrade Check

檢測由于Kernel升級導(dǎo)致驅(qū)動異常情況

需要用戶卸載驅(qū)動后重新安裝驅(qū)動。

Fabricmanager running Check

檢測Fabricmanager組件運行狀態(tài)

需要用戶安裝或啟動Fabricmanager組件服務(wù)。

Power Cable Error Check

檢測GPU電源線及供電狀態(tài)

會向用戶發(fā)送運維通知。

GPU Device Lost Check

檢測GPU丟卡情況

會向用戶發(fā)送運維通知。

GPU Driver Install Check

檢測GPU驅(qū)動的安裝狀態(tài)

需要用戶安裝驅(qū)動。

GPU Xid Error Check

檢測GPU Xid error異常情況

根據(jù)不同的XID錯誤提示用戶重啟實例。