本文匯總使用DLC模塊遇到的常見問題、定位思路以及解決辦法。
“exited with code 137”,遇到錯誤碼137怎么辦?
當您遇到錯誤碼137時,如“xxx exited with code 137”,您可以嘗試更換內存規格更大的實例,或增加worker數量,或修改您的代碼中內存申請的數量。
在Linux系統中,錯誤碼137表示進程被SIGKILL信號強制中止了,最常見的原因是內存使用量過高,即OOM(Out Of Memory)錯誤。您可以結合任務詳情中worker的內存水位來進一步判斷內存不足的原因,或更換內存規格更大的實例,或增加worker數量,或修改您的代碼中內存申請的數量。
當DLC任務執行狀態為已失敗或已出隊時該如何處理?
DLC的任務執行狀態順序為:
任務類型 | 任務執行狀態順序 | |
使用按量計費資源提交DLC任務 | 使用靈駿智算競價資源 |
|
使用靈駿智算或通用計算公共資源 |
| |
使用包年包月資源提交DLC任務 |
|
使用公共資源的DLC任務后期能調整為專屬資源嗎?
您需要重新創建任務來調整所使用的資源。您可以在原始任務操作列下單擊克隆,以創建一個新的任務,該任務將復用原始任務的配置,避免重新輸入和配置相同的參數。關于計費詳情介紹,請參見分布式訓練(DLC)計費說明。
在DLC中使用多機多卡如何設置?
您可以在創建DLC任務時,配置以下啟動命令,更多配置詳情,請參見創建訓練任務。
python -m torch.distributed.launch \ --nproc_per_node=2 \ --master_addr=${MASTER_ADDR} \ --master_port=${MASTER_PORT} \ --nnodes=${WORLD_SIZE} \ --node_rank=${RANK} \ train.py --epochs=100
如何將在PAI-DLC平臺訓練得到的模型下載到本地?
您可以在提交DLC訓練任務時綁定數據集,完成訓練后,模型文件會被保存在掛載的數據集目錄中。您也可以直接訪問相應的文件系統并從中下載模型文件到本地。
如何在提交DLC任務時綁定數據集,請參見通過控制臺創建。
如何將對象存儲OSS文件系統中的文件下載到本地,請參見控制臺快速入門。
如何將NAS文件系統中的文件下載到本地,請參見函數計算掛載文件系統。