DSW常見(jiàn)問(wèn)題
本文為您介紹DSW的相關(guān)問(wèn)題。
目錄
什么是DSW?
DSW(Data Science Workshop)是PAI推出的云原生機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)開(kāi)發(fā)平臺(tái),其中內(nèi)置了Jupyterlab、WebIDE和terminal 三種使用方式,同時(shí)也支持本地開(kāi)發(fā)環(huán)境通過(guò)ssh登錄進(jìn)行遠(yuǎn)程開(kāi)發(fā),并支持多種計(jì)算資源類(lèi)型和環(huán)境。您可以通過(guò)該平臺(tái)在線編寫(xiě)及執(zhí)行代碼,提交代碼為離線任務(wù)并將生成的訓(xùn)練模型下載至本地。
Notebook中如何下載文件夾?
DSW中Notebook基于開(kāi)源的JupyterLab開(kāi)發(fā)環(huán)境,暫無(wú)法直接通過(guò)右鍵菜單下載文件夾。由于DSW中Notebook、WebIDE和Terminal三種開(kāi)發(fā)環(huán)境后臺(tái)數(shù)據(jù)相通,因此您可以在Terminal中將文件夾通過(guò)Linux命令打包,然后在Notebook開(kāi)發(fā)環(huán)境下即可通過(guò)右鍵下載已打包的文件夾。
拉取模型時(shí)報(bào)1005錯(cuò)誤
當(dāng)前由于國(guó)內(nèi)網(wǎng)絡(luò)受限,如果從Huggingface上拉取模型或插件時(shí)可能會(huì)報(bào)“1005”鏈接錯(cuò)誤,您可以通過(guò)以下方式解決:
通過(guò)國(guó)內(nèi)鏡像源進(jìn)行拉取。
為本地網(wǎng)絡(luò)設(shè)置代理。
上傳本地模型,詳情請(qǐng)參見(jiàn)上傳與下載數(shù)據(jù)文件。
ProxyClient連接DSW實(shí)例時(shí)斷連報(bào)錯(cuò):client_loop: send disconnect: Broken pipe
在使用其通過(guò)SSH方式連接DSW實(shí)例時(shí),若長(zhǎng)時(shí)間不進(jìn)行操作會(huì)觸發(fā)斷連,系統(tǒng)可能會(huì)提示:
如果要從根本上解決此問(wèn)題,推薦您使用穩(wěn)定性更高的SSH直連方式連接DSW實(shí)例。
DSW實(shí)例如何掛載和使用自己的NAS文件系統(tǒng)?
DSW實(shí)例默認(rèn)提供的系統(tǒng)盤(pán)為臨時(shí)存儲(chǔ),在停止或刪除實(shí)例后,系統(tǒng)會(huì)清空數(shù)據(jù)。如果您需要永久化存儲(chǔ)數(shù)據(jù),則需要掛載自己NAS。您所有的NAS文件均存儲(chǔ)在/nas目錄,可以通過(guò)DSW Terminal進(jìn)入該目錄查看并使用文件。
新版的DSW僅支持在創(chuàng)建實(shí)例時(shí),掛載自己的NAS,詳情請(qǐng)參見(jiàn)創(chuàng)建DSW實(shí)例。實(shí)例一旦創(chuàng)建,則無(wú)法編輯實(shí)例信息或掛載NAS。
掛載了NAS的實(shí)例,系統(tǒng)默認(rèn)使用該NAS存儲(chǔ)數(shù)據(jù),不再使用臨時(shí)存儲(chǔ)。
制作鏡像時(shí)報(bào)錯(cuò):insufficient capacity of ephemeral storage
出錯(cuò)原因:制作鏡像的大小校驗(yàn)邏輯是檢查系統(tǒng)盤(pán)的剩余可用空間是否大于寫(xiě)入層的大小,如果可用空間不足,就會(huì)報(bào)這個(gè)錯(cuò)。
解決方案:在DSW Terminal中通過(guò)df -h
查看文件系統(tǒng)的磁盤(pán)空間占用情況,并確保overlay已使用的空間不超過(guò)/dev/vda4的可用空間,如果超過(guò),您可以通過(guò)在制作鏡像時(shí)設(shè)置自定義排除路徑解決。
如何在DSW中使用第三方庫(kù)
DSW支持安裝第三庫(kù),可以使用DSW Terminal輸入如下命令完成安裝。
#Python 3版本。
pip install --user xxx
#Python 2版本。
source activate python2
pip install --user xxx
其中xxx需要替換為待安裝的第三方庫(kù)名稱(chēng)。安裝成功后,需要單擊kernelrestart kernel,重啟服務(wù)。
運(yùn)行機(jī)器學(xué)習(xí)代碼時(shí),為什么頁(yè)面放置一段時(shí)間后提示重新登錄?
為安全考慮,DSW登錄Session的有效期為3個(gè)小時(shí),過(guò)期后需要重新登錄,但是不會(huì)影響任務(wù)的執(zhí)行。如果需要長(zhǎng)時(shí)間運(yùn)行任務(wù),建議在DSW Terminal,使用nohup
命令后臺(tái)執(zhí)行任務(wù)。
使用ECS搭建FTP上傳下載文件到NAS,執(zhí)行掛載(mount)命令報(bào)錯(cuò)mount:wrong fs type,bad option,bad superblock
現(xiàn)象描述
解決方法
執(zhí)行
mount
命令之前,先安裝nfs-utils安裝包。yum install nfs-utils
如何使用DSW讀取OSS數(shù)據(jù)?
進(jìn)入DSW Terminal中,使用ossutil
命令實(shí)現(xiàn)文件的上傳和下載,具體操作步驟如下:
在DSW Terminal中下載安裝ossutil,并且完成ossutil配置。具體操作,請(qǐng)參見(jiàn)安裝ossutil。
在DSW中上傳文件到OSS Bucket存儲(chǔ)空間,或從OSS Buckt存儲(chǔ)空間下載文件到DSW。具體操作,請(qǐng)參見(jiàn)命令行工具ossutil命令參考。
為什么安裝的第三方包沒(méi)有生效?
通過(guò)pip
命令安裝第三方包后,使用import
命令導(dǎo)入時(shí),如果出現(xiàn)無(wú)法查找到該包的問(wèn)題,則先嘗試重啟服務(wù)。如果依然報(bào)錯(cuò),則確認(rèn)當(dāng)前使用的環(huán)境。安裝第三方包時(shí),DSW默認(rèn)安裝到Python 3環(huán)境。如果需要安裝到其他環(huán)境,則必須先手動(dòng)切換環(huán)境再進(jìn)行安裝,示例如下。
安裝到Python 2環(huán)境。
source activate python2
pip install --user xxx
安裝到TensorFlow 2.0環(huán)境。
source activate tf2
pip install --user xxx
其中xxx需要替換為待安裝的第三方包名稱(chēng)。
如何部署DSW生成的模型?
使用EAS模型部署服務(wù)
使用DSW預(yù)置的EASCMD,在Terminal中使用命令行部署模型服務(wù),詳情請(qǐng)參見(jiàn)創(chuàng)建DSW實(shí)例。
下載模型到本地部署
您可以通過(guò)右鍵單擊DSW生成的模型將其下載至本地。
DSW如何收費(fèi)?
DSW支持預(yù)付費(fèi)和后付費(fèi),您可以根據(jù)自己的實(shí)際需要選擇付費(fèi)方式,計(jì)費(fèi)詳情請(qǐng)參見(jiàn)DSW計(jì)費(fèi)說(shuō)明。
如何查看DSW賬單?
對(duì)于后付費(fèi)用戶(hù),可以進(jìn)入費(fèi)用與成本頁(yè)面查看賬單明細(xì),詳情請(qǐng)參見(jiàn)查看賬單明細(xì)。
為什么DSW無(wú)法啟動(dòng)Docker?
因?yàn)?span id="z68uejxpaoma" class="help-letter-space">DSW本身運(yùn)行在容器中,所以DSW不支持安裝Docker。對(duì)應(yīng)的CUDA版本是底層的虛擬機(jī)預(yù)裝好的,無(wú)法變更,您可以使用nvidia-smi
查看對(duì)應(yīng)的CUDA版本。
DSW實(shí)例啟動(dòng)失敗
排查方法:單擊DSW實(shí)例名稱(chēng),在事件頁(yè)簽下查看報(bào)錯(cuò)信息。
通常DSW實(shí)例啟動(dòng)失敗包含以下錯(cuò)誤:
錯(cuò)誤原因:試用資源是公共資源,如果在使用高峰期來(lái)啟動(dòng)DSW實(shí)例時(shí),有可能啟動(dòng)時(shí)間長(zhǎng)達(dá)半個(gè)多小時(shí),如果一個(gè)小時(shí)拉取不到資源的話,系統(tǒng)會(huì)提示當(dāng)前地域沒(méi)有您所選的規(guī)格。
解決方案:嘗試以下操作:
切換地域。
變配實(shí)例的資源規(guī)格(等待中的實(shí)例不支持修改規(guī)格,您可手動(dòng)停止實(shí)例,然后進(jìn)行規(guī)格切換)。
在非高峰期(如非工作時(shí)間)時(shí)使用。
如果上述方法均無(wú)法解決問(wèn)題,請(qǐng)聯(lián)系您的商務(wù)經(jīng)理進(jìn)行處理。
錯(cuò)誤原因:當(dāng)前計(jì)算資源已完全被占用。
解決方案:嘗試以下操作:
切換地域。
變配實(shí)例的資源規(guī)格(等待中的實(shí)例不支持修改規(guī)格,您可手動(dòng)停止實(shí)例,然后進(jìn)行規(guī)格切換)。
在非高峰期(如非工作時(shí)間)時(shí)使用。
如果上述方法均無(wú)法解決問(wèn)題,請(qǐng)聯(lián)系您的商務(wù)經(jīng)理進(jìn)行處理。
錯(cuò)誤原因:指定的計(jì)算資源已經(jīng)售罄。
解決方案:嘗試以下操作:
切換地域。
變配實(shí)例的資源規(guī)格(等待中的實(shí)例不支持修改規(guī)格,您可手動(dòng)停止實(shí)例,然后進(jìn)行規(guī)格切換)。
在非高峰期(如非工作時(shí)間)時(shí)使用。
如果上述方法均無(wú)法解決問(wèn)題,請(qǐng)聯(lián)系您的商務(wù)經(jīng)理進(jìn)行處理。
錯(cuò)誤原因:系統(tǒng)盤(pán)已滿,需要對(duì)系統(tǒng)盤(pán)進(jìn)行擴(kuò)容。
解決方案:通過(guò)變更配置對(duì)系統(tǒng)盤(pán)進(jìn)行擴(kuò)容:
重要擴(kuò)容過(guò)系統(tǒng)盤(pán)后,無(wú)論實(shí)例是否處于運(yùn)行狀態(tài),系統(tǒng)盤(pán)都會(huì)持續(xù)計(jì)費(fèi)。如果您想停止DSW實(shí)例相關(guān)的一切計(jì)費(fèi),請(qǐng)刪除DSW實(shí)例。刪除前請(qǐng)務(wù)必確保必要數(shù)據(jù)已備份。
錯(cuò)誤原因:在創(chuàng)建DSW實(shí)例時(shí)配置了VPC專(zhuān)有網(wǎng)絡(luò),由于VPC下的vSwitch交換機(jī)具有可用區(qū)屬性,配置交換機(jī)后,計(jì)算資源的查找范圍將被限制在該交換機(jī)所在的可用區(qū)內(nèi),可能會(huì)出現(xiàn)資源短缺的問(wèn)題。
解決方案:對(duì)指定DSW實(shí)例進(jìn)行配置變更,將專(zhuān)有網(wǎng)絡(luò)配置為空。
說(shuō)明如果需要使用專(zhuān)有網(wǎng)絡(luò),建議切換到另一個(gè)可用區(qū)并重新創(chuàng)建一個(gè)vSwitch和DSW實(shí)例,以擴(kuò)大可用資源的范圍,避免因資源范圍小而導(dǎo)致的貨源短缺問(wèn)題。
錯(cuò)誤原因:在創(chuàng)建DSW實(shí)例時(shí),當(dāng)前限制每個(gè)阿里云賬號(hào)(主賬號(hào))在每個(gè)地域最多一次創(chuàng)建2*GPU規(guī)格的實(shí)例,當(dāng)選擇的規(guī)格超過(guò)2*GPU時(shí),會(huì)創(chuàng)建失敗。
解決方案:如果您需要提升限額,請(qǐng)提交工單聯(lián)系我們。
為什么在Terminal中沒(méi)有tab鍵自動(dòng)補(bǔ)全等bash功能?
因?yàn)椴糠昼R像有使用限制,您需要手動(dòng)在Terminal中輸入bash并按回車(chē)鍵,才可以啟動(dòng)bash相關(guān)功能。
如果您在DSW中進(jìn)行AI開(kāi)發(fā)時(shí)發(fā)現(xiàn)DSW實(shí)例規(guī)格不滿足要求如何解決?
您可以按照以下操作步驟更新DSW實(shí)例規(guī)格:
在DSW實(shí)例列表中,單擊實(shí)例名稱(chēng),進(jìn)入實(shí)例詳情頁(yè)面。
在實(shí)例配置頁(yè)簽中,單擊變更配置。
在變更實(shí)例配置面板中,更新實(shí)例規(guī)格。
說(shuō)明在更新DSW實(shí)例規(guī)格時(shí),如果實(shí)例正在運(yùn)行中,更新操作會(huì)立即重啟實(shí)例。請(qǐng)確保您已經(jīng)保存了實(shí)例中的內(nèi)容。
如果掛載OSS數(shù)據(jù)集后,訪問(wèn)掛載目錄報(bào)錯(cuò)Input/output error,應(yīng)如何解決?
該問(wèn)題是由于未對(duì)角色授予OSS訪問(wèn)權(quán)限(AliyunPAIDLCAccessingOSSRole)導(dǎo)致,具體授權(quán)操作,請(qǐng)參見(jiàn)PAI服務(wù)賬號(hào)授權(quán)。
我的內(nèi)存使用率較高,怎么樣進(jìn)行釋放?
如果您的內(nèi)存使用率過(guò)高,影響了正常使用,您可以通過(guò)兩種方式來(lái)解決。
如果因內(nèi)存占用過(guò)高,您已無(wú)法通過(guò)命令行進(jìn)行交互,請(qǐng)單擊右上角的停止實(shí)例;或返回到DSW控制臺(tái),單擊實(shí)例所在行右側(cè)的停止按鍵。等到實(shí)例停止后再打開(kāi)實(shí)例。
如果在實(shí)例中可以通過(guò)命令行進(jìn)行交互,您可以在實(shí)例的Terminal中輸入
top
命令,查看當(dāng)前所有進(jìn)程的內(nèi)存占用信息。%MEM
表示占用內(nèi)存百分比,PID
表示進(jìn)程ID。如果您想要結(jié)束占用內(nèi)存較高的進(jìn)程,請(qǐng)?jiān)诿钚兄休斎耄?/p>
kill PID
您需要將PID替換成您想要結(jié)束進(jìn)程的PID。運(yùn)行后可看到內(nèi)存使用率降低。