日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

通過指定版本號自定義節點GPU驅動版本

不同類型和版本的ACK集群默認為您安裝不同版本的NVIDIA驅動。如果您使用的CUDA庫需要匹配更高版本的NVIDIA驅動,需要自定義安裝節點的NVIDIA驅動。本文介紹如何基于節點池標簽自定義GPU節點的NVIDIA驅動版本。

注意事項

  • 對于GPU驅動版本與您業務應用的兼容性(GPU驅動版本與CUDA庫版本的兼容性),ACK不保證兩者之間兼容性,請您自行驗證。

  • 對于已經安裝GPU驅動、NVIDIA Container Runtime等GPU組件的自定義操作系統鏡像,ACK無法保證其提供的GPU驅動與ACK其他GPU組件兼容(例如監控組件等)。

  • 通過節點池標簽指定節點池中GPU節點的驅動版本時,由于安裝驅動的過程是在添加節點時被觸發,因此僅對新擴容或新添加的節點有效,對節點池中已經存在的節點無效。如果希望對已有節點有效,那么需要將該節點從節點池移除,再加入原節點池。具體操作,請參見移除節點添加已有節點

  • 機型ecs.gn7.xxxxx和ecs.ebmgn7.xxxx對510.xxx和515.xxx版本驅動存在兼容性問題,建議使用關閉GSP的510以下的驅動版本(例如:470.xxx.xxxx)或525.125.06及其以上的驅動版本。

  • NVIDIA各卡型(P100、T4、V100、A10等)對驅動版本的更詳細的要求,請參見NVIDIA官方文檔

步驟一:確定NVIDIA驅動版本

ACK支持的NVIDIA驅動版本列表選擇與您業務相匹配的NVIDIA驅動版本。具體操作,請參見如何選擇節點NVIDIA驅動版本

步驟二:創建節點池并指定驅動版本

本文以驅動版本418.181.07為例進行介紹。

  1. 登錄容器服務管理控制臺,在左側導航欄選擇集群

  2. 集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇節點管理 > 節點池

  3. 單擊右上角的創建節點池,然后在創建節點池對話框配置相關參數。

    主要配置項說明如下。關于配置項的詳細說明,請參見創建ACK托管集群

    1. 單擊顯示高級選項

    2. 節點標簽參數欄添加標簽,單擊1圖標,然后在文本框輸入ack.aliyun.com/nvidia-driver-version,在文本框輸入418.181.07

      關于容器服務提供的可用NVIDIA驅動版本,請參見ACK支持的NVIDIA驅動版本列表

      重要

      實例規格為ecs.ebmgn7或ecs.ebmgn7e的ECS,僅支持460.32.03之后的NVIDIA驅動版本。

    3. 參數配置完成后,單擊確認配置

步驟三:驗證節點池自定義安裝NVIDIA驅動是否成功

  1. 登錄容器服務管理控制臺,在左側導航欄選擇集群

  2. 在目標集群右側的操作列,選擇更多 > 通過 CloudShell 管理集群

  3. 執行以下命令,查看帶有component: nvidia-device-plugin標簽的Pod。

    kubectl get po -n kube-system -l component=nvidia-device-plugin -o wide

    預期輸出:

    NAME                                            READY   STATUS    RESTARTS   AGE   IP              NODE                       NOMINATED NODE   READINESS GATES
    nvidia-device-plugin-cn-beijing.192.168.1.127   1/1     Running   0          6d    192.168.1.127   cn-beijing.192.168.1.127   <none>           <none>
    nvidia-device-plugin-cn-beijing.192.168.1.128   1/1     Running   0          17m   192.168.1.128   cn-beijing.192.168.1.128   <none>           <none>
    nvidia-device-plugin-cn-beijing.192.168.8.12    1/1     Running   0          9d    192.168.8.12    cn-beijing.192.168.8.12    <none>           <none>
    nvidia-device-plugin-cn-beijing.192.168.8.13    1/1     Running   0          9d    192.168.8.13    cn-beijing.192.168.8.13    <none>           <none>
    nvidia-device-plugin-cn-beijing.192.168.8.14    1/1     Running   0          9d    192.168.8.14    cn-beijing.192.168.8.14    <none>           <none>

    預期輸出表明,NODE列集群中剛添加的節點對應的Pod名稱為nvidia-device-plugin-cn-beijing.192.168.1.128。

  4. 執行以下命令查看節點的驅動版本是否符合預期。

    kubectl exec -ti nvidia-device-plugin-cn-beijing.192.168.1.128 -n kube-system -- nvidia-smi

    預期輸出:

    Sun Feb  7 04:09:01 2021       
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 418.181.07   Driver Version: 418.181.07   CUDA Version: N/A      |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla V100-SXM2...  On   | 00000000:00:07.0 Off |                    0 |
    | N/A   27C    P0    40W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   1  Tesla V100-SXM2...  On   | 00000000:00:08.0 Off |                    0 |
    | N/A   27C    P0    40W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   2  Tesla V100-SXM2...  On   | 00000000:00:09.0 Off |                    0 |
    | N/A   31C    P0    39W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   3  Tesla V100-SXM2...  On   | 00000000:00:0A.0 Off |                    0 |
    | N/A   27C    P0    41W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID   Type   Process name                             Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+

    預期輸出表明,驅動版本為418.181.07,即通過節點池自定義安裝NVIDIA驅動成功。

其他方式

使用OpenAPI方式創建或者擴容集群時,可在目標節點池的配置中設置自定義驅動的標簽。示例代碼如下:

{
  // 其他部分省略
  ......
    "tags": [
        {
            "key": "ack.aliyun.com/nvidia-driver-version",
            "value": "418.181.07"
        }
    ],
  // 其他部分省略
  ......
}