日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

DLC常見問題

本文匯總使用DLC模塊遇到的常見問題、定位思路以及解決辦法。

“exited with code 137”,遇到錯誤碼137怎么辦?

當您遇到錯誤碼137時,如“xxx exited with code 137”,您可以嘗試更換內存規格更大的實例,或增加worker數量,或修改您的代碼中內存申請的數量。

image

Linux系統中,錯誤碼137表示進程被SIGKILL信號強制中止了,最常見的原因是內存使用量過高,即OOM(Out Of Memory)錯誤。您可以結合任務詳情中worker的內存水位來進一步判斷內存不足的原因,或更換內存規格更大的實例,或增加worker數量,或修改您的代碼中內存申請的數量。

DLC任務執行狀態為已失敗或已出隊時該如何處理?

DLC的任務執行狀態順序為:

任務類型

任務執行狀態順序

使用按量計費資源提交DLC任務

使用靈駿智算競價資源

創建中->競價中->環境準備中->運行中->已成功/已失敗/已停止

使用靈駿智算或通用計算公共資源

創建中->環境準備中->運行中->已成功/已失敗/已停止

使用包年包月資源提交DLC任務

創建中->排隊中->環境準備中->運行中->已成功/已失敗/已停止

  • 當任務執行狀態為環境準備中時如何處理?

    如果任務長時間處于環境準備中狀態,可能是因為您創建的分布式訓練任務配置了CPFS類型的數據集,但沒有配置專有網絡導致的。您需要重新創建分布式訓練任務,配置CPFS類型數據集并配置專有網絡,且選擇的專有網絡需要與CPFS一致,詳情請參見創建訓練任務

  • 當任務執行狀態為已失敗時如何處理?

    您可以在任務詳情頁面中,將鼠標懸浮到任務執行狀態后的image.png,或者查看實例操作日志,來初步定位任務執行失敗的原因,詳情請參見查看訓練詳情

使用公共資源的DLC任務后期能調整為專屬資源嗎?

您需要重新創建任務來調整所使用的資源。您可以在原始任務操作列下單擊克隆,以創建一個新的任務,該任務將復用原始任務的配置,避免重新輸入和配置相同的參數。關于計費詳情介紹,請參見分布式訓練(DLC)計費說明

DLC中使用多機多卡如何設置?

您可以在創建DLC任務時,配置以下啟動命令,更多配置詳情,請參見創建訓練任務

python -m torch.distributed.launch \ --nproc_per_node=2 \ --master_addr=${MASTER_ADDR} \ --master_port=${MASTER_PORT} \ --nnodes=${WORLD_SIZE} \ --node_rank=${RANK} \ train.py --epochs=100

如何將在PAI-DLC平臺訓練得到的模型下載到本地?

您可以在提交DLC訓練任務時綁定數據集,完成訓練后,模型文件會被保存在掛載的數據集目錄中。您也可以直接訪問相應的文件系統并從中下載模型文件到本地。