對于Ubuntu操作系統GPU計算型實例(即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex),如果您采用安裝包方式安裝了nvidia-fabricmanager服務,則apt-daily服務可能會自動更新已安裝的軟件包,使得該軟件版本與Tesla驅動版本不一致,產生版本兼容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用,本文介紹這種情況的解決方案。
問題現象
采用安裝包方式安裝nvidia-fabricmanager服務后,查看該服務狀態時,出現如下報錯信息,該情況會導致GPU無法正常使用。
問題原因
在Ubuntu系統的GPU實例上,通過安裝包方式安裝了nvidia-fabricmanager服務后,由于apt-daily服務會自動更新nvidia-fabricmanager軟件,使得該軟件版本與Tesla驅動版本不一致,基于版本兼容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用。
解決方案
nvidia-fabricmanager軟件版本必須與Tesla驅動版本一致,才能確保GPU的正常運行。為了預防或解決nvidia-fabricmanager軟件版本與Tesla驅動版本不一致帶來的GPU無法使用問題,請參考以下操作。
查看nvidia-fabricmanager軟件和Tesla驅動版本信息。
執行以下命令,查看nvidia-fabricmanager軟件版本信息。
sudo dpkg --list |grep nvidia-fabricmanager
本示例以nvidia-fabricmanager軟件版本為
550.90.07
為例,其中,nvidia-fabricmanager-550
為軟件包名稱,550.90.07
為軟件版本。執行以下命令,查看Tesla驅動版本信息。
nvidia-smi
本示例以Tesla驅動版本為
550.90.07
為例。
確認當前nvidia-fabricmanager版本與Tesla驅動版本是否一致。
如果兩版本一致,繼續執行下一步。
如果兩版本不一致,請選擇以下任一方案:
升級Tesla驅動確保與nvidia-fabricmanager版本保持一致。具體操作,請參見升級NVIDIA Tesla驅動。
卸載當前nvidia-fabricmanager服務并重新安裝后,繼續執行下一步。
說明如需了解如何卸載nvidia-fabricmanager服務,請參見步驟1:卸載nvidia-fabricmanager服務。
執行以下命令,禁止nvidia-fabricmanager軟件被自動更新或升級。
本示例以
nvidia-fabricmanager-550
軟件包名稱為例,請替換成您實際的nvidia-fabricmanager軟件包名稱。sudo apt-mark hold nvidia-fabricmanager-550
顯示結果如下,表示nvidia-fabricmanager軟件已禁止更新。
執行以下命令,確認
nvidia-fabricmanager
軟件更新已被鎖定(hold)。sudo apt-mark showhold
例如結果顯示
cloud-init
和nvidia-fabricmanager-550
信息,表示相應的軟件更新已被鎖定。