GPU云服務(wù)器常見(jiàn)問(wèn)題
為了有效排查和解決GPU云服務(wù)器的相關(guān)問(wèn)題,本文為您匯總了使用GPU時(shí)遇到的一些常見(jiàn)問(wèn)題。
類別 | 相關(guān)問(wèn)題 |
GPU實(shí)例 | |
GPU顯卡 | |
Tesla驅(qū)動(dòng)或GRID驅(qū)動(dòng) | |
GPU監(jiān)控 | |
其他 |
GPU實(shí)例支持安卓模擬器嗎?
僅部分GPU實(shí)例支持安裝安卓模擬器。
除GPU計(jì)算型彈性裸金屬服務(wù)器實(shí)例規(guī)格族e(cuò)bmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模擬器外,其他類型的GPU實(shí)例均不支持安卓模擬器。
GPU實(shí)例的配置支持變更嗎?
僅部分GPU實(shí)例的配置支持變更。
詳細(xì)的實(shí)例規(guī)格變配支持情況,請(qǐng)參見(jiàn)支持變配的實(shí)例規(guī)格。
普通ECS實(shí)例規(guī)格族是否支持升級(jí)或變更為GPU實(shí)例規(guī)格族?
普通ECS實(shí)例規(guī)格族不支持直接升級(jí)或變更為GPU實(shí)例規(guī)格族。
詳細(xì)的實(shí)例規(guī)格變配支持情況,請(qǐng)參見(jiàn)支持變配的實(shí)例規(guī)格。
如果您的業(yè)務(wù)涉及AI推理相關(guān)內(nèi)容,您可以購(gòu)買彈性加速計(jì)算實(shí)例EAIS,通過(guò)該服務(wù)實(shí)現(xiàn)為ECS實(shí)例遠(yuǎn)程增加GPU顯卡的效果。EAIS能夠?qū)PU資源與GPU資源解耦,幫助您將GPU資源附加到ECS實(shí)例上,構(gòu)建成您希望得到的GPU實(shí)例規(guī)格。關(guān)于彈性加速計(jì)算實(shí)例EAIS的更多信息,請(qǐng)參見(jiàn)什么是彈性加速計(jì)算實(shí)例EAIS。
如何在GPU實(shí)例和普通ECS實(shí)例間傳輸數(shù)據(jù)?
無(wú)需特別設(shè)置即可傳輸數(shù)據(jù)。
GPU實(shí)例除了GPU加速能力外,保留了與普通ECS實(shí)例一致的使用體驗(yàn)。同一安全組內(nèi)的GPU實(shí)例和ECS實(shí)例之間默認(rèn)內(nèi)網(wǎng)互通,所以您無(wú)需特別設(shè)置。
GPU與CPU有什么區(qū)別?
GPU與CPU的對(duì)比如下表所示:
對(duì)比項(xiàng) | GPU | CPU |
算術(shù)運(yùn)算單元(ALU) | 擁有大量擅長(zhǎng)處理大規(guī)模并發(fā)計(jì)算的算術(shù)運(yùn)算單元(ALU)。 | 擁有強(qiáng)大的算術(shù)運(yùn)算單元(ALU),但數(shù)量較少。 |
邏輯控制單元 | 擁有相對(duì)簡(jiǎn)單的邏輯控制單元。 | 擁有復(fù)雜的邏輯控制單元。 |
緩存 | 擁有很少的緩存,且緩存用于服務(wù)線程,而不是用于保存訪問(wèn)的數(shù)據(jù)。 | 擁有大量的緩存結(jié)構(gòu),能夠?qū)?shù)據(jù)保存至緩存,從而提高訪問(wèn)速度,降低時(shí)延。 |
響應(yīng)方式 | 需要將全部任務(wù)整合后,再進(jìn)行批處理。 | 實(shí)時(shí)響應(yīng),對(duì)單個(gè)任務(wù)的響應(yīng)速度較高。 |
適用場(chǎng)景 | 適用于計(jì)算密集,相似度高,且多線程并行的高吞吐量運(yùn)算場(chǎng)景。 | 適用于對(duì)響應(yīng)速度有要求,且邏輯復(fù)雜的串行運(yùn)算場(chǎng)景。 |
購(gòu)買GPU實(shí)例后,為什么執(zhí)行nvidia-smi
命令找不到GPU顯卡?
問(wèn)題原因:當(dāng)您執(zhí)行nvidia-smi
命令無(wú)法找到GPU顯卡時(shí),通常是由于您的GPU實(shí)例未安裝或者未成功安裝Tesla或GRID驅(qū)動(dòng)。
解決措施:請(qǐng)根據(jù)您所購(gòu)買的GPU實(shí)例規(guī)格選擇對(duì)應(yīng)的操作來(lái)安裝相應(yīng)驅(qū)動(dòng),才能正常使用GPU實(shí)例的高性能特性。具體說(shuō)明如下:
GPU虛擬化型實(shí)例,請(qǐng)務(wù)必安裝GRID驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn):
GPU計(jì)算型實(shí)例,可以安裝Tesla驅(qū)動(dòng)或GRID驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn):
如何查看GPU顯卡的詳細(xì)信息?
不同操作系統(tǒng)的GPU實(shí)例,查看GPU顯卡信息的操作有所不同,具體說(shuō)明如下:
針對(duì)Linux操作系統(tǒng),您可以執(zhí)行
nvidia-smi
命令查看GPU顯卡的詳細(xì)信息。針對(duì)Windows操作系統(tǒng),您可以在
中查看GPU顯卡的詳細(xì)信息。
如果您需要了解GPU顯卡的空閑率、使用率、溫度以及功率等信息,可以前往云監(jiān)控控制臺(tái)查看。具體操作,請(qǐng)參見(jiàn)GPU監(jiān)控。
普通ECS實(shí)例可以增加GPU顯卡嗎?
可以。
如果您的業(yè)務(wù)涉及AI推理相關(guān)內(nèi)容,您需要購(gòu)買彈性加速計(jì)算實(shí)例EAIS,該服務(wù)能夠?qū)PU資源與GPU資源解耦,幫助您將GPU資源附加到ECS實(shí)例上,構(gòu)建成您希望得到的GPU實(shí)例規(guī)格,從而實(shí)現(xiàn)為ECS實(shí)例遠(yuǎn)程增加GPU顯卡。關(guān)于彈性加速計(jì)算實(shí)例EAIS的更多信息,請(qǐng)參見(jiàn)什么是彈性加速計(jì)算實(shí)例EAIS。
GPU虛擬化型實(shí)例需要安裝什么驅(qū)動(dòng)?
GPU虛擬化型實(shí)例需要安裝GRID驅(qū)動(dòng)。
針對(duì)通用計(jì)算場(chǎng)景或圖形加速場(chǎng)景,您可以在創(chuàng)建GPU實(shí)例時(shí)同步加載GRID驅(qū)動(dòng),也可以在創(chuàng)建GPU實(shí)例后通過(guò)云助手方式安裝GRID驅(qū)動(dòng),安裝方式如下:
創(chuàng)建新實(shí)例時(shí),同步加載GRID驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn)通過(guò)預(yù)裝驅(qū)動(dòng)的鏡像加載GRID驅(qū)動(dòng)。
創(chuàng)建實(shí)例后,通過(guò)云助手安裝GRID驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn):
在GPU計(jì)算型實(shí)例上使用OpenGL、Direct3D等工具做圖形加速時(shí),需要安裝什么驅(qū)動(dòng)?
請(qǐng)根據(jù)您所使用的GPU實(shí)例的操作系統(tǒng)來(lái)安裝相應(yīng)驅(qū)動(dòng)。具體說(shuō)明如下:
針對(duì)Linux操作系統(tǒng)的GPU計(jì)算型實(shí)例,請(qǐng)安裝Tesla驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn):
針對(duì)Windows操作系統(tǒng)的GPU計(jì)算型實(shí)例,請(qǐng)安裝GRID驅(qū)動(dòng)。具體操作,請(qǐng)參見(jiàn):
為什么創(chuàng)建GPU實(shí)例時(shí)選擇的CUDA版本與安裝完成后查看到的CUDA版本不一致?
您執(zhí)行命令nvidia-smi
查詢到的CUDA版本代表您的GPU實(shí)例能夠支持的最高CUDA版本,并不代表您創(chuàng)建GPU實(shí)例時(shí)選擇的CUDA版本。
GPU實(shí)例(Windows系統(tǒng))安裝GRID驅(qū)動(dòng)后,通過(guò)控制臺(tái)VNC遠(yuǎn)程連接該實(shí)例出現(xiàn)黑屏怎么辦?
問(wèn)題原因:當(dāng)Windows操作系統(tǒng)的GPU實(shí)例安裝了GRID驅(qū)動(dòng)后,虛擬機(jī)(VM)的顯示輸出被GRID驅(qū)動(dòng)接管,VNC無(wú)法再獲取到集成顯卡的畫面,因此,VNC顯示會(huì)變成黑屏狀態(tài),屬于正常現(xiàn)象。
解決方案:使用Workbench連接GPU實(shí)例。具體操作,請(qǐng)參見(jiàn)通過(guò)密碼或密鑰認(rèn)證登錄Windows實(shí)例。
如何獲取GRID License?
請(qǐng)根據(jù)您使用的操作系統(tǒng)查看對(duì)應(yīng)的獲取方式,具體說(shuō)明如下:
針對(duì)在Windows操作系統(tǒng)的GPU實(shí)例上安裝GRID驅(qū)動(dòng),請(qǐng)通過(guò)預(yù)裝驅(qū)動(dòng)鏡像方式或者手動(dòng)方式獲取。
針對(duì)在Linux操作系統(tǒng)的GPU實(shí)例上安裝GRID驅(qū)動(dòng),請(qǐng)通過(guò)預(yù)裝驅(qū)動(dòng)鏡像方式或者云助手方式獲取。
如何查看GPU監(jiān)控?cái)?shù)據(jù)?
您可以通過(guò)云監(jiān)控控制臺(tái)或API接口DescribeMetricList查看GPU監(jiān)控?cái)?shù)據(jù),更多信息,請(qǐng)參見(jiàn)GPU監(jiān)控。
如何安裝cGPU服務(wù)?
無(wú)論您是企業(yè)認(rèn)證用戶還是個(gè)人實(shí)名認(rèn)證用戶,推薦您通過(guò)ACK的Docker運(yùn)行時(shí)環(huán)境安裝和使用cGPU服務(wù)。具體操作,請(qǐng)參見(jiàn)安裝共享GPU調(diào)度組件。