為節點安裝NVIDIA驅動時,您需要確保驅動版本包含在ACK支持的驅動版本列表中。本文介紹ACK支持的NVIDIA驅動版本列表。
ACK各集群版本支持的NVIDIA GPU驅動版本列表如下。
如果您使用的OS為3.7及以上版本的Alibaba Cloud Linux 3,那么請使用版本發布日期為2022年10月以后的GPU驅動。Alibaba Cloud Linux 3.7的發布日期為2023年05月15日。
關于Alibaba Cloud Linux 3鏡像發布記錄,請參見Alibaba Cloud Linux 3鏡像發布記錄。
您可以在NVIDIA官網查詢驅動版本及其發布日期。
目前,510及其以上版本的驅動會偶發性出現XID 119或XID 120錯誤。如遇相關問題,請參見使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡怎么辦?進行自排查。
ACK會不定期更新不同集群版本所使用的默認驅動版本,這可能會使得您的集群中新擴容GPU節點使用的驅動版本有所變化,如果需要避免這種情況,建議您給集群節點池指定驅動版本,請參見通過指定版本號自定義節點GPU驅動版本進行節點池標簽的配置。
集群版本 | 默認驅動版本 | 是否支持自定義驅動版本能力 | 支持的NVIDIA驅動版本 |
1.30及以上 | 535.161.07 | 是 |
|
1.28 | 535.161.07 | 是 | |
1.26 | 535.161.07 | 是 | |
1.24 | 535.161.07 | 是 | |
1.22 | 535.161.07 | 是 | |
1.20 | 535.161.07 | 是 | |
1.18.8 | 418.181.07 | 是 |
|
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |