針對通用計算場景或圖形加速場景,您可以在創建GPU實例時自動安裝或加載Tesla驅動,也可以在創建GPU實例后手動安裝Tesla驅動,配備了驅動的GPU實例才能提供更好的計算性能和圖形渲染能力。本文介紹如何在創建GPU實例時自動安裝或加載Tesla驅動。
驅動安裝方式
選擇不同安裝方式自動安裝或加載Tesla驅動來滿足通用計算場景或圖形加速場景的性能需求。
安裝方式 | 說明 | 相關鏈接 |
公共鏡像方式 | 創建GPU實例時,您選擇了公共鏡像并同時選中安裝GPU驅動選項。 | |
云市場鏡像方式 | 創建GPU實例時,您選擇了預裝NVIDIA Tesla驅動的云市場鏡像。 | |
自動安裝腳本方式 | 創建GPU實例時,在鏡像區域未選中安裝GPU驅動選項,但在自定義數據區域輸入自動安裝腳本來安裝NVIDIA Tesla驅動。 |
通過公共鏡像自動安裝驅動
特定的Linux操作系統公共鏡像支持選擇安裝GPU驅動選項,如果選擇公共鏡像后同時選中安裝GPU驅動選項,則創建GPU實例后會自動安裝Tesla驅動。
前往實例創建頁。
選擇自定義購買頁簽。
按需選擇付費類型、地域、網絡及可用區、實例規格、鏡像等配置。
除實例規格和鏡像外,如需了解其他配置項的詳情,請參見配置項說明。支持創建GPU實例時同步安裝Tesla驅動的實例、鏡像及驅動版本對應關系如下:
說明NVIDIA Tesla驅動用于驅動物理GPU,配合CUDA、cuDNN庫可以高效地使用GPU,安裝NVIDIA Tesla驅動會同時安裝CUDA和cuDNN庫。如果您的業務屬于新的業務系統,建議選擇最新版本的Tesla驅動、CUDA、cuDNN庫。
支持的實例規格
支持的公共鏡像版本
NVIDIA Tesla驅動版本
CUDA版本
cuDNN版本
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
ebmgn7ix、ebmgn7ex
gn8is、ebmgn8is
Alibaba Cloud Linux 2、Linux3
Ubuntu 22.04、20.04、18.04
Centos 8.x、7.x
說明ebmgn7e和ebmgn7ex不支持選擇Ubuntu 18.04版本的鏡像。
550.90.07
12.4.1
9.2.0.82
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
ebmgn7ix、ebmgn7ex
gn8is、ebmgn8is
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04
CentOS 8.x、7.x
說明ebmgn7e和ebmgn7ex不支持選擇Ubuntu 18.04版本的鏡像。
535.154.05
12.1.1
8.9.7.29
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
ebmgn7ix、ebmgn7ex
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04
CentOS 8.x、7.x
525.105.17
12.0.1
8.9.1.23
gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
sccgn7ex
ebmgn7ix、ebmgn7ex
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
Debian 10.10
說明sccgn7ex僅支持選擇Debian10.10、 Ubuntu 20.04、 CentOS 8.3以及Alibaba Cloud Linux 2版本的鏡像。
470.161.03
11.4.1
8.2.4
gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
460.91.03
11.2.2
8.1.1
gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
460.91.03
11.0.2
8.1.1
8.0.4
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 18.04、16.04
CentOS 8.x、7.x
460.91.03
10.2.89
8.1.1
8.0.4
7.6.5
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Ubuntu 18.04、16.04
CentOS 7.x
450.80.02
440.64.00
10.1.168
8.0.4
7.6.5
7.5.0
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Ubuntu 18.04、16.04
CentOS 7.x
450.80.02
440.64.00
10.0.130
7.6.5
7.5.0
7.4.2
7.3.1
重要如果實例創建完成后需要更換操作系統,請您確保使用支持自動安裝Tesla驅動的公共鏡像。如果您選擇了不支持自動安裝Tesla驅動的公共鏡像,請先取消自動安裝Tesla驅動功能,具體操作,請參見更換操作系統時如何取消自動安裝Tesla驅動功能。
如果您通過
pip3 install torch
安裝了版本為2.1.2的PyTorch,則需要安裝版本為12.1的CUDA,否則在使用PyTorch過程中會報錯,更多信息,請參見使用PyTorch時出現“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”報錯。
以gn7i實例為例,在鏡像區域的公共鏡像頁簽下,選擇Linux操作系統及版本(例如Alibaba Cloud Linux 3.2104 LTS 64位)時,選中安裝GPU驅動選項,繼續依次選擇CUDA版本、Driver版本以及cuDNN版本,則創建實例后會同步安裝NVIDIA Tesla驅動。
實例創建或啟動后,Tesla驅動的相關說明如下:
除了為實例配置自動安裝Tesla驅動、CUDA和cuDNN庫,您還可以根據實際需要繼續選擇是否自動安裝RDMA軟件棧(僅超級計算集群sccgn7ex涉及),是否安裝eRDMA軟件棧(僅部分第7代GPU實例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU實例(如ebmgn8is和gn8is等)涉及)。待所有軟件安裝完成后,實例會自動重啟,然后Tesla驅動才能正常工作。
說明Tesla驅動在Persistence Mode下工作更穩定。自動安裝腳本會自動開啟Tesla驅動的Persistence Mode,并將該設置添加到Linux系統服務中,在開機時自動啟動服務,從而確保實例重啟后默認自動開啟Persistence Mode。
RDMA軟件棧
RDMA(Remote Direct Memory Access)軟件棧包含RDMA網卡驅動及所需工具包。
說明為優化神龍架構GPU服務器的網絡性能,阿里云推出了sccgn7ex實例規格,該規格機型配備了具有超強計算能力的GPU和RDMA(Remote Direct Memory Access)高性能網絡服務。如果您選擇了sccgn7ex實例,則需要根據自身業務,選擇是否自動安裝RDMA軟件棧。
如果單獨選中安裝RDMA軟件棧,則實例創建后會自動安裝RDMA網卡驅動及所需工具包,方便您快速使用RDMA的高性能網絡服務(例如高吞吐量、低延遲特性)。
如果同時選中安裝GPU驅動和安裝RDMA軟件棧,則實例創建后會自動安裝RDMA軟件棧和GPU驅動、CUDA、cuDNN,并自動加載nvidia_peermem模塊,方便您的業務使用GPU Direct RDMA功能。更多信息,請參見sccgn系列實例使用說明及驗證。
eRDMA軟件棧
eRDMA(Elastic Remote Direct Memory Access)是阿里云自研的云上彈性RDMA網絡,具備傳統RDMA網絡的高吞吐、低延遲特性,同時可支持秒級的大規模RDMA組網。RDMA軟件棧包含NVIDIA MLNX_OFED驅動、eRDMA驅動以及所需工具包。
說明目前部分第7代GPU實例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU實例(如ebmgn8is和gn8is等)支持創建/掛載彈性RDMA網卡。如果您選擇了該實例,則需要根據自身業務選擇是否自動安裝eRDMA軟件棧。
如果單獨選中安裝eRDMA軟件棧,則實例創建后會自動安裝NVIDIA MLNX_OFED驅動及eRDMA驅動,方便您快速使用RDMA功能。
如果同時選中安裝GPU驅動和安裝eRDMA軟件棧,則實例創建后會自動安裝eRDMA軟件棧和GPU驅動、CUDA、cuDNN,并自動加載nvidia_peermem模塊,方便您的業務使用GPU Direct RDMA功能。
更多信息,請參見在GPU實例上配置eRDMA。
自動安裝Tesla驅動耗時受不同實例規格的內網帶寬和CPU核數影響,大約需要10~20分鐘。您可以遠程連接實例并查看安裝過程,也可以在安裝完成后查看安裝日志/root/auto_install/auto_install.log。安裝過程中的顯示效果如下所示:
安裝過程
顯示效果
正在安裝
顯示安裝進度條。
安裝成功
安裝結果提示ALL INSTALL OK。
安裝失敗
安裝結果提示INSTALL FAIL。
重要在安裝過程中無法使用GPU時,請勿對實例進行任何操作。如果安裝了GPU某些軟件,則會由于自動安裝失敗而導致實例不可用。
按照頁面提示,完成訂單支付。
通過預裝驅動的云市場鏡像自動加載驅動
部分GPU計算型實例(Linux)的云市場鏡像中已預裝了NVIDIA Tesla驅動,該鏡像供您免費使用。您可以在云市場鏡像中選擇已預裝了Tesla驅動的免費鏡像,創建GPU實例時選用該鏡像也會同步加載Tesla驅動。
前往實例創建頁。
選擇自定義購買頁簽。
按需選擇付費類型、地域、網絡及可用區、實例規格、鏡像等配置。
除實例規格和鏡像外,如需了解其他配置項的詳情,請參見配置項說明。
如果需要獲得GPU超強的計算能力,您可以選擇如下云市場鏡像,在創建GPU實例時同步加載Tesla驅動。
支持的實例規格
已預裝驅動或軟件棧的鏡像
版本信息
是否已安裝nvidia- fabircmanager
gn7e、gn7i、gn6e、gn6v、gn6i、gn5、gn5i
ebmgn7i、ebmgn6e、ebmgn6v、ebmgn6i
Alibaba Cloud Linux 2 64位(預裝NVIDIA GPU驅動)
Ubuntu 20.04 64位(預裝NVIDIA GPU驅動)
CentOS 7.9 64位(預裝NVIDIA GPU驅動)
Tesla驅動版本:470.161.03
CUDA版本:11.4.1
cuDNN版本:8.2.4
否
Alibaba Cloud Linux 3.2104 LTS 64位預裝NVIDIA GPU驅動鏡像
Tesla驅動版本:535.154.05
Docker版本:26.1.3
NVIDIA Container Toolkit版本:1.13.5
否
Alibaba Cloud Linux 3.2104 LTS 64位預裝NVIDIA GPU 550.90.07驅動鏡像
Tesla驅動版本:550.90.07
CUDA版本:12.4.1
cuDNN版本:9.2.0
Docker版本:26.1.3
eRDMA版本:0.2.37
是
Ubuntu 22.04 64位預裝NVIDIA GPU 550.90.07驅動鏡像
Tesla驅動版本:550.90.07
CUDA版本:12.4.1
cuDNN版本:9.2.0
Docker版本:27.0.3
eRDMA版本:0.2.37
是
以華北2(北京)地域的gn6i(ecs.gn6i-c4g1.xlarge)實例為例,在鏡像區域的云市場鏡像頁簽下,支持選擇已預裝NVIDIA Tesla驅動的免費鏡像。如果選擇了云市場鏡像中已預裝驅動的鏡像,則創建實例時自動加載NVIDIA Tesla驅動。例如:
單擊從云市場獲取更多選擇(含操作系統),然后搜索
預裝NVIDIA
,選擇并使用已預裝NVIDIA Tesla驅動的免費鏡像。如果需要快速使用RDMA/eRDMA的高性能網絡服務(例如高吞吐、低延遲特性)功能以實現RDMA直通加速能力 ,您可以選擇如下云市場鏡像,在創建GPU實例時自動加載Tesla驅動、RDMA軟件棧或eRDMA軟件棧。
支持的實例規格
已預裝驅動或軟件棧的鏡像
版本信息
sccgn7ex
Alibaba Cloud Linux 2 64位 for sccgn7ex(預裝NVIDIA GPU驅動/RDMA軟件棧)
Ubuntu 20.04 64位 for sccgn7ex(預裝NVIDIA GPU驅動/RDMA軟件棧)
Tesla驅動版本:525.105.17
CUDA版本:12.0.1
cuDNN版本:8.9.1.23
支持eRDMA彈性網卡的實例(例如ebmgn7ix、ebmgn7ex、ebmgn8is等)
Alibaba Cloud Linux 3 64位 (預裝eRDMA軟件棧)
eRDMA驅動版本:0.2.37
按照頁面提示,完成訂單支付。
通過自動安裝腳本方式安裝驅動
在創建GPU實例時,如果在鏡像區域未選中安裝GPU驅動選項,則您可以在自定義數據區域輸入自動安裝腳本來安裝NVIDIA Tesla驅動。
腳本參數設置說明
使用自動安裝腳本時,您需要根據實際業務場景修改如下參數。
根據您所創建的實例規格和鏡像,修改對應的Tesla驅動、CUDA和cuDNN庫版本。詳細的版本支持情況,請參見通過公共鏡像自動安裝驅動中選擇公共鏡像時Tesla驅動支持的鏡像版本和實例規格。
以修改Tesla驅動版本為470.161.03、CUDA版本為11.4.1、cuDNN版本為8.2.4為例,示例如下:
DRIVER_VERSION="470.161.03" CUDA_VERSION="11.4.1" CUDNN_VERSION="8.2.4"
(條件必選)如果實例為超級計算集群sccgn7ex的實例規格族,則設置是否安裝RDMA軟件棧。
僅超級計算集群sccgn7ex的實例規格族支持安裝RDMA軟件棧。如需安裝RDMA軟件棧,則將
IS_INSTALL_RDMA
的值設置為TRUE
,否則設置為FALSE
。示例如下:IS_INSTALL_RDMA="TRUE"
(條件必選)如果實例為部分第7代GPU實例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU實例(如ebmgn8is和gn8is),則設置是否安裝eRDMA軟件棧。
僅部分第7代GPU實例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU實例(如ebmgn8is和gn8is)支持安裝eRDMA軟件棧。如需安裝eRDMA軟件棧,則將
IS_INSTALL_eRDMA
的值設置為TRUE
,否則設置為FALSE
。示例如下:IS_INSTALL_eRDMA="TRUE"
操作步驟
前往實例創建頁。
選擇自定義購買頁簽。
按需選擇付費類型、地域、網絡及可用區、實例規格、鏡像、自定義數據等配置。
如需了解其他配置項,請參見配置項說明。
在高級選項(選填)的自定義數據區域內,手動輸入已準備的腳本內容。
您可以自行準備自動安裝腳本,關于自動安裝腳本參數設置的詳細說明,請參見腳本參數設置說明。
本腳本以使用
.run
安裝包方式安裝Tesla驅動等模塊為例。腳本示例如下所示:#!/bin/sh #Please input version to install DRIVER_VERSION="550.90.07" CUDA_VERSION="12.4.1" CUDNN_VERSION="9.2.0.82" IS_INSTALL_eRDMA="FALSE" IS_INSTALL_RDMA="FALSE" INSTALL_DIR="/root/auto_install" #using .run to install driver and cuda auto_install_script="auto_install_v4.0.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url rm -rf $INSTALL_DIR mkdir -p $INSTALL_DIR cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA
按照頁面提示,完成訂單支付。
說明如果調用RunInstances接口來創建GPU實例,則您只能通過UserData參數上傳自動安裝腳本來安裝NVIDIA Tesla驅動,更多信息,請參見RunInstances。
在創建GPU實例時,如果未同時自動安裝NVIDIA Tesla驅動,則可在GPU實例創建后手動執行自動安裝腳本來安裝Tesla驅動等軟件。即通過SSH登錄實例后,在實例內編輯一個文件,然后將自動安裝腳本內容復制到實例內并作為Shell腳本執行。關于實例連接方式的介紹,請參見連接實例。
相關文檔
針對通用計算場景或圖形加速場景,如果您在創建GPU計算型實例時未自動安裝或加載Tesla驅動,則需要在創建GPU實例后,單獨安裝相應驅動。具體操作,請參見: