GPU實例在運行過程中可能會存在潛在的故障隱患或者安全風險,例如顯卡故障、驅動程序錯誤等問題,ECS管理控制臺支持配置GPU設備健康檢查功能,方便您自行診斷當前實例的GPU卡或驅動是否存在異常,及時發現并解決潛在問題。
操作步驟
說明
操作前,請確認GPU實例處于運行中狀態。
登錄ECS管理控制臺。
在左側導航欄,單擊自助問題排查。
在頁面左側頂部,選擇目標GPU實例所在地域。
在實例問題排查頁簽下,選擇問題排查類型、檢查項、實例ID和排查周期,然后單擊開始排查。
說明單擊開始排查后,系統會自動創建一個診斷任務。同一時間段一個實例只允許執行一個診斷任務,且該任務完成后,需至少間隔5分鐘,才能再次對該實例發起診斷任務。
具體配置項說明如下:
序號
配置項
說明
①
問題排查類型
選擇實例設備檢測類型,用于檢查實例的GPU卡或其他設備是否正常運行。
②
檢查項
選中GPU設備健康檢查,用于檢查實例的GPU卡狀態或驅動狀態等。
③
實例ID
選擇待檢查的GPU實例ID。
排查周期
默認為您排查最近12小時內的問題,您也可以根據實際需要自行設置時間周期。
診斷完成后,查看診斷報告。
診斷報告包括以下信息:
配置項
說明
診斷結果
如果各項檢查均正常,則顯示為實例未發現異常。
如果存在異常診斷項,則顯示為實例存在***項異常,并顯示異常詳情和相應的修復方案,您可以參考修復方案解決問題。
診斷項詳情
本文僅包含GPU設備和驅動的狀態檢查,級別分為嚴重、警告和通過。
診斷基礎信息
包括資源ID、報告ID和診斷時間。
(可選)在實例問題排查頁簽下,單擊查看歷史,查看當前實例的診斷歷史詳情。
說明在診斷歷史報告列表中,您可以單擊診斷狀態右側的圖標,選擇相應的狀態進行篩選。
文檔內容是否對您有幫助?