為了有效排查和解決GPU云服務器的相關問題,本文為您匯總了使用GPU時遇到的一些常見問題。
類別 | 相關問題 |
GPU實例 | |
GPU顯卡 | |
Tesla驅動或GRID驅動 | |
GPU監控 | |
其他 |
GPU實例支持安卓模擬器嗎?
僅部分GPU實例支持安裝安卓模擬器。
除GPU計算型彈性裸金屬服務器實例規格族ebmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模擬器外,其他類型的GPU實例均不支持安卓模擬器。
GPU實例的配置支持變更嗎?
僅部分GPU實例的配置支持變更。
詳細的實例規格變配支持情況,請參見支持變配的實例規格。
普通ECS實例規格族是否支持升級或變更為GPU實例規格族?
普通ECS實例規格族不支持直接升級或變更為GPU實例規格族。
詳細的實例規格變配支持情況,請參見支持變配的實例規格。
如果您的業務涉及AI推理相關內容,您可以購買彈性加速計算實例EAIS,通過該服務實現為ECS實例遠程增加GPU顯卡的效果。EAIS能夠將CPU資源與GPU資源解耦,幫助您將GPU資源附加到ECS實例上,構建成您希望得到的GPU實例規格。關于彈性加速計算實例EAIS的更多信息,請參見什么是彈性加速計算實例EAIS。
如何在GPU實例和普通ECS實例間傳輸數據?
無需特別設置即可傳輸數據。
GPU實例除了GPU加速能力外,保留了與普通ECS實例一致的使用體驗。同一安全組內的GPU實例和ECS實例之間默認內網互通,所以您無需特別設置。
GPU與CPU有什么區別?
GPU與CPU的對比如下表所示:
對比項 | GPU | CPU |
算術運算單元(ALU) | 擁有大量擅長處理大規模并發計算的算術運算單元(ALU)。 | 擁有強大的算術運算單元(ALU),但數量較少。 |
邏輯控制單元 | 擁有相對簡單的邏輯控制單元。 | 擁有復雜的邏輯控制單元。 |
緩存 | 擁有很少的緩存,且緩存用于服務線程,而不是用于保存訪問的數據。 | 擁有大量的緩存結構,能夠將數據保存至緩存,從而提高訪問速度,降低時延。 |
響應方式 | 需要將全部任務整合后,再進行批處理。 | 實時響應,對單個任務的響應速度較高。 |
適用場景 | 適用于計算密集,相似度高,且多線程并行的高吞吐量運算場景。 | 適用于對響應速度有要求,且邏輯復雜的串行運算場景。 |
購買GPU實例后,為什么執行nvidia-smi
命令找不到GPU顯卡?
問題原因:當您執行nvidia-smi
命令無法找到GPU顯卡時,通常是由于您的GPU實例未安裝或者未成功安裝Tesla或GRID驅動。
解決措施:請根據您所購買的GPU實例規格選擇對應的操作來安裝相應驅動,才能正常使用GPU實例的高性能特性。具體說明如下:
GPU虛擬化型實例,請務必安裝GRID驅動。具體操作,請參見:
GPU計算型實例,可以安裝Tesla驅動或GRID驅動。具體操作,請參見:
如何查看GPU顯卡的詳細信息?
不同操作系統的GPU實例,查看GPU顯卡信息的操作有所不同,具體說明如下:
針對Linux操作系統,您可以執行
nvidia-smi
命令查看GPU顯卡的詳細信息。針對Windows操作系統,您可以在
中查看GPU顯卡的詳細信息。
普通ECS實例可以增加GPU顯卡嗎?
可以。
如果您的業務涉及AI推理相關內容,您需要購買彈性加速計算實例EAIS,該服務能夠將CPU資源與GPU資源解耦,幫助您將GPU資源附加到ECS實例上,構建成您希望得到的GPU實例規格,從而實現為ECS實例遠程增加GPU顯卡。關于彈性加速計算實例EAIS的更多信息,請參見什么是彈性加速計算實例EAIS。
GPU虛擬化型實例需要安裝什么驅動?
GPU虛擬化型實例需要安裝GRID驅動。
針對通用計算場景或圖形加速場景,您可以在創建GPU實例時同步加載GRID驅動,也可以在創建GPU實例后通過云助手方式安裝GRID驅動,安裝方式如下:
創建新實例時,同步加載GRID驅動。具體操作,請參見通過預裝驅動的鏡像加載GRID驅動。
創建實例后,通過云助手安裝GRID驅動。具體操作,請參見:
在GPU計算型實例上使用OpenGL、Direct3D等工具做圖形加速時,需要安裝什么驅動?
請根據您所使用的GPU實例的操作系統來安裝相應驅動。具體說明如下:
針對Linux操作系統的GPU計算型實例,請安裝Tesla驅動。具體操作,請參見:
針對Windows操作系統的GPU計算型實例,請安裝GRID驅動。具體操作,請參見:
為什么創建GPU實例時選擇的CUDA版本與安裝完成后查看到的CUDA版本不一致?
您執行命令nvidia-smi
查詢到的CUDA版本代表您的GPU實例能夠支持的最高CUDA版本,并不代表您創建GPU實例時選擇的CUDA版本。
GPU實例(Windows系統)安裝GRID驅動后,通過控制臺VNC遠程連接該實例出現黑屏怎么辦?
問題原因:當Windows操作系統的GPU實例安裝了GRID驅動后,虛擬機(VM)的顯示輸出被GRID驅動接管,VNC無法再獲取到集成顯卡的畫面,因此,VNC顯示會變成黑屏狀態,屬于正常現象。
解決方案:使用Workbench連接GPU實例。具體操作,請參見通過密碼或密鑰認證登錄Windows實例。
如何獲取GRID License?
請根據您使用的操作系統查看對應的獲取方式,具體說明如下:
針對在Windows操作系統的GPU實例上安裝GRID驅動,請通過預裝驅動鏡像方式或者手動方式獲取。
針對在Linux操作系統的GPU實例上安裝GRID驅動,請通過預裝驅動鏡像方式或者云助手方式獲取。
如何查看GPU監控數據?
您可以通過云監控控制臺或API接口DescribeMetricList查看GPU監控數據,更多信息,請參見GPU監控。
如何安裝cGPU服務?
無論您是企業認證用戶還是個人實名認證用戶,推薦您通過ACK的Docker運行時環境安裝和使用cGPU服務。具體操作,請參見安裝共享GPU調度組件。