本文為您介紹DSW的相關問題。
目錄
什么是DSW?
DSW(Data Science Workshop)是PAI推出的云原生機器學習和數據科學開發平臺,其中內置了Jupyterlab、WebIDE和terminal 三種使用方式,同時也支持本地開發環境通過ssh登錄進行遠程開發,并支持多種計算資源類型和環境。您可以通過該平臺在線編寫及執行代碼,提交代碼為離線任務并將生成的訓練模型下載至本地。
Notebook中如何下載文件夾?
DSW中Notebook基于開源的JupyterLab開發環境,暫無法直接通過右鍵菜單下載文件夾。由于DSW中Notebook、WebIDE和Terminal三種開發環境后臺數據相通,因此您可以在Terminal中將文件夾通過Linux命令打包,然后在Notebook開發環境下即可通過右鍵下載已打包的文件夾。
拉取模型時報1005錯誤
當前由于國內網絡受限,如果從Huggingface上拉取模型或插件時可能會報“1005”鏈接錯誤,您可以通過以下方式解決:
通過國內鏡像源進行拉取。
為本地網絡設置代理。
上傳本地模型,詳情請參見上傳與下載數據文件。
ProxyClient連接DSW實例時斷連報錯:client_loop: send disconnect: Broken pipe
在使用其通過SSH方式連接DSW實例時,若長時間不進行操作會觸發斷連,系統可能會提示:
如果要從根本上解決此問題,推薦您使用穩定性更高的SSH直連方式連接DSW實例。
DSW實例如何掛載和使用自己的NAS文件系統?
DSW實例默認提供的系統盤為臨時存儲,在停止或刪除實例后,系統會清空數據。如果您需要永久化存儲數據,則需要掛載自己NAS。您所有的NAS文件均存儲在/nas目錄,可以通過DSW Terminal進入該目錄查看并使用文件。
新版的DSW僅支持在創建實例時,掛載自己的NAS,詳情請參見創建DSW實例。實例一旦創建,則無法編輯實例信息或掛載NAS。
掛載了NAS的實例,系統默認使用該NAS存儲數據,不再使用臨時存儲。
制作鏡像時報錯:insufficient capacity of ephemeral storage
出錯原因:制作鏡像的大小校驗邏輯是檢查系統盤的剩余可用空間是否大于寫入層的大小,如果可用空間不足,就會報這個錯。
解決方案:在DSW Terminal中通過df -h
查看文件系統的磁盤空間占用情況,并確保overlay已使用的空間不超過/dev/vda4的可用空間,如果超過,您可以通過在制作鏡像時設置自定義排除路徑解決。
如何在DSW中使用第三方庫
DSW支持安裝第三庫,可以使用DSW Terminal輸入如下命令完成安裝。
#Python 3版本。
pip install --user xxx
#Python 2版本。
source activate python2
pip install --user xxx
其中xxx需要替換為待安裝的第三方庫名稱。安裝成功后,需要單擊kernelrestart kernel,重啟服務。
運行機器學習代碼時,為什么頁面放置一段時間后提示重新登錄?
為安全考慮,DSW登錄Session的有效期為3個小時,過期后需要重新登錄,但是不會影響任務的執行。如果需要長時間運行任務,建議在DSW Terminal,使用nohup
命令后臺執行任務。
使用ECS搭建FTP上傳下載文件到NAS,執行掛載(mount)命令報錯mount:wrong fs type,bad option,bad superblock
現象描述
解決方法
執行
mount
命令之前,先安裝nfs-utils安裝包。yum install nfs-utils
如何使用DSW讀取OSS數據?
進入DSW Terminal中,使用ossutil
命令實現文件的上傳和下載,具體操作步驟如下:
在DSW Terminal中下載安裝ossutil,并且完成ossutil配置。具體操作,請參見安裝ossutil。
在DSW中上傳文件到OSS Bucket存儲空間,或從OSS Buckt存儲空間下載文件到DSW。具體操作,請參見命令行工具ossutil命令參考。
為什么安裝的第三方包沒有生效?
通過pip
命令安裝第三方包后,使用import
命令導入時,如果出現無法查找到該包的問題,則先嘗試重啟服務。如果依然報錯,則確認當前使用的環境。安裝第三方包時,DSW默認安裝到Python 3環境。如果需要安裝到其他環境,則必須先手動切換環境再進行安裝,示例如下。
安裝到Python 2環境。
source activate python2
pip install --user xxx
安裝到TensorFlow 2.0環境。
source activate tf2
pip install --user xxx
其中xxx需要替換為待安裝的第三方包名稱。
如何部署DSW生成的模型?
使用EAS模型部署服務
使用DSW預置的EASCMD,在Terminal中使用命令行部署模型服務,詳情請參見創建DSW實例。
下載模型到本地部署
您可以通過右鍵單擊DSW生成的模型將其下載至本地。
DSW如何收費?
DSW支持預付費和后付費,您可以根據自己的實際需要選擇付費方式,計費詳情請參見DSW計費說明。
如何查看DSW賬單?
對于后付費用戶,可以進入費用與成本頁面查看賬單明細,詳情請參見查看賬單明細。
為什么DSW無法啟動Docker?
因為DSW本身運行在容器中,所以DSW不支持安裝Docker。對應的CUDA版本是底層的虛擬機預裝好的,無法變更,您可以使用nvidia-smi
查看對應的CUDA版本。
DSW實例啟動失敗
排查方法:單擊DSW實例名稱,在事件頁簽下查看報錯信息。
通常DSW實例啟動失敗包含以下錯誤:
錯誤原因:試用資源是公共資源,如果在使用高峰期來啟動DSW實例時,有可能啟動時間長達半個多小時,如果一個小時拉取不到資源的話,系統會提示當前地域沒有您所選的規格。
解決方案:嘗試以下操作:
切換地域。
變配實例的資源規格(等待中的實例不支持修改規格,您可手動停止實例,然后進行規格切換)。
在非高峰期(如非工作時間)時使用。
如果上述方法均無法解決問題,請聯系您的商務經理進行處理。
錯誤原因:當前計算資源已完全被占用。
解決方案:嘗試以下操作:
切換地域。
變配實例的資源規格(等待中的實例不支持修改規格,您可手動停止實例,然后進行規格切換)。
在非高峰期(如非工作時間)時使用。
如果上述方法均無法解決問題,請聯系您的商務經理進行處理。
錯誤原因:指定的計算資源已經售罄。
解決方案:嘗試以下操作:
切換地域。
變配實例的資源規格(等待中的實例不支持修改規格,您可手動停止實例,然后進行規格切換)。
在非高峰期(如非工作時間)時使用。
如果上述方法均無法解決問題,請聯系您的商務經理進行處理。
錯誤原因:系統盤已滿,需要對系統盤進行擴容。
解決方案:通過變更配置對系統盤進行擴容:
重要擴容過系統盤后,無論實例是否處于運行狀態,系統盤都會持續計費。如果您想停止DSW實例相關的一切計費,請刪除DSW實例。刪除前請務必確保必要數據已備份。
錯誤原因:在創建DSW實例時配置了VPC專有網絡,由于VPC下的vSwitch交換機具有可用區屬性,配置交換機后,計算資源的查找范圍將被限制在該交換機所在的可用區內,可能會出現資源短缺的問題。
解決方案:對指定DSW實例進行配置變更,將專有網絡配置為空。
說明如果需要使用專有網絡,建議切換到另一個可用區并重新創建一個vSwitch和DSW實例,以擴大可用資源的范圍,避免因資源范圍小而導致的貨源短缺問題。
錯誤原因:在創建DSW實例時,當前限制每個阿里云賬號(主賬號)在每個地域最多一次創建2*GPU規格的實例,當選擇的規格超過2*GPU時,會創建失敗。
解決方案:如果您需要提升限額,請提交工單聯系我們。
為什么在Terminal中沒有tab鍵自動補全等bash功能?
因為部分鏡像有使用限制,您需要手動在Terminal中輸入bash并按回車鍵,才可以啟動bash相關功能。
如果您在DSW中進行AI開發時發現DSW實例規格不滿足要求如何解決?
您可以按照以下操作步驟更新DSW實例規格:
在DSW實例列表中,單擊實例名稱,進入實例詳情頁面。
在實例配置頁簽中,單擊變更配置。
在變更實例配置面板中,更新實例規格。
說明在更新DSW實例規格時,如果實例正在運行中,更新操作會立即重啟實例。請確保您已經保存了實例中的內容。
如果掛載OSS數據集后,訪問掛載目錄報錯Input/output error,應如何解決?
該問題是由于未對角色授予OSS訪問權限(AliyunPAIDLCAccessingOSSRole)導致,具體授權操作,請參見PAI服務賬號授權。
我的內存使用率較高,怎么樣進行釋放?
如果您的內存使用率過高,影響了正常使用,您可以通過兩種方式來解決。
如果因內存占用過高,您已無法通過命令行進行交互,請單擊右上角的停止實例;或返回到DSW控制臺,單擊實例所在行右側的停止按鍵。等到實例停止后再打開實例。
如果在實例中可以通過命令行進行交互,您可以在實例的Terminal中輸入
top
命令,查看當前所有進程的內存占用信息。%MEM
表示占用內存百分比,PID
表示進程ID。如果您想要結束占用內存較高的進程,請在命令行中輸入:
kill PID
您需要將PID替換成您想要結束進程的PID。運行后可看到內存使用率降低。