在GPU計算型實例中安裝高版本Tesla驅動(例如驅動版本為535或更高版本)后,通過nvidia-smi -pm 1
命令方式開啟Persistence Mode屬性,可能會因為驅動版本過高,重啟實例后導致該屬性開啟失效,同時ECC狀態或MIG功能設置也失敗,本文介紹這種情況的解決方案。
問題現象
在GPU計算型實例中安裝Tesla驅動(Linux)時,該驅動版本為535或更高版本,通過nvidia-smi -pm 1
命令方式開啟Persistence Mode屬性后,可能會導致以下問題:
重啟GPU實例后,導致Persistence Mode屬性開啟失效(即Persistence Mode仍默認為
Off
狀態)。ECC狀態設置失敗。
MIG功能設置失敗。
問題原因
由于Tesla驅動版本過高,即驅動版本為535或更高版本時,同時通過nvidia-smi -pm 1
命令開啟Persistence Mode屬性,重啟GPU實例后導致上述問題發生。
解決方案
查看dmesg日志時,如果存在以下提示,建議您通過NVIDIA Persistence Daemon方式打開Persistence Mode屬性。具體操作,請參見通過NVIDIA Persistence Daemon方式開啟Persistence-M。
NVRM: Persistence mode is deprecated and will be removed in a future release. Please use nvidia-persistenced instead.
文檔內容是否對您有幫助?