本文為您介紹分布式訓練(DLC)完整的使用流程。
在模型訓練階段,您可通過DLC發起大規模的分布式訓練任務。具體使用流程如下:
提交訓練任務前,需要完成以下準備工作:
創建訓練任務。
支持通過控制臺、SDK或命令行提交訓練任務。更詳細的參數配置說明,請參見創建訓練任務。
提交DLC任務時,支持以下高階功能配置:
介紹如何在提交DLC任務時開啟自動容錯功能。開啟該功能后,系統會拉起一個AIMaster實例和任務其他實例一起運行,起到任務監控、容錯判斷、資源控制的作用。
介紹如何在提交DLC任務時開啟健康檢測功能。健康檢測會對參與訓練的資源進行全面檢測,自動隔離故障節點,并觸發后臺自動化運維流程,有效減少任務訓練初期遇到問題的可能性,提升訓練成功率。
介紹提交DLC任務時,如何使用EasyCkpt。EasyCkpt為PyTorch大模型訓練場景提供全過程進度無損的模型保存和恢復能力。
當使用靈駿智算資源(Serverless)提交訓練任務時,支持使用高性能網絡(RDMA)進行分布式訓練。介紹使用RDMA的相關配置說明。
PAI通用計算資源中的部分GPU機型已支持彈性RDMA(eRDMA)能力。您只需使用特定鏡像提交基于這些GPU機型的DLC任務,系統將自動在容器內掛載eRDMA網卡,從而加速分布式訓練過程。
為了提升資源利用率并減少因資源配額錯配而導致的浪費,DLC提供了閑時資源功能。使用預付費資源配額提交DLC訓練任務時,您可以通過配置閑時資源,有效利用空閑資源,以提高資源的整體使用率。
您可以在提交DLC任務時,通過代碼配置或掛載的方式配置OSS、NAS、CPFS或MaxCompute存儲,從而方便地在訓練過程中直接讀寫相應存儲中的數據。
通過配置SLS日志轉發功能,您能夠直接將當前工作空間中的DLC任務日志轉發至指定的SLS日志庫,實現自定義分析。
支持使用靈駿智算競價資源創建DLC任務。
查看和管理訓練任務。
任務提交完成后,您可通過查看訓練詳情了解任務運行情況。且支持對已創建的任務進行停止、克隆、分享、生成腳本和刪除等管理操作,詳情請參見管理訓練任務。
監控訓練任務。
提交訓練任務后,您可以通過以下操作監控訓練任務。
提交了綁定數據集的訓練任務后,您可以使用Tensorboard查看訓練任務分析報告。
使用云監控或ARMS查看DLC任務的資源狀況或配置告警規則。詳情請參見訓練監控與報警。
通過在PAI工作空間的事件中心中創建消息通知規則,以便跟蹤和監控DLC任務的狀態。詳情請參見消息通知。
配置訓練任務周期性調度。
當測試數據或超參數更新,并需要持續進行增量訓練和模型調優時,您可以通過周期性調度定期提交DLC任務。
更多DLC相關的使用案例,請參見DLC使用案例匯總。