日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用流程

本文為您介紹分布式訓練(DLC)完整的使用流程。

在模型訓練階段,您可通過DLC發起大規模的分布式訓練任務。具體使用流程如下:

  1. 提交訓練任務前,需要完成以下準備工作:

    • 準備資源

      支持使用靈駿智算資源(用于大模型的訓練任務)和通用計算資源(用于通用的訓練任務)。

    • 準備鏡像

      準備模型訓練階段依賴的鏡像環境。支持官方鏡像和自定義鏡像。

    • 準備數據集

      提交訓練任務前,您需將訓練任務所需的數據上傳至OSSNAS后,創建為訓練任務可直接使用的數據集。用于存儲訓練所需的文件和結果文件。

    • 準備代碼集

      提交訓練任務前,您需要準備訓練任務所需代碼。為了方便管理和使用,建議您在工作空間的AI資產管理 > 代碼配置頁面中,將該代碼添加為PAIAI資產,便于多個訓練任務直接選擇使用。

  2. 創建訓練任務。

    支持通過控制臺、SDK或命令行提交訓練任務。更詳細的參數配置說明,請參見創建訓練任務。

    提交DLC任務時,支持以下高階功能配置:

    • AIMaster:彈性自動容錯引擎

      介紹如何在提交DLC任務時開啟自動容錯功能。開啟該功能后,系統會拉起一個AIMaster實例和任務其他實例一起運行,起到任務監控、容錯判斷、資源控制的作用。

    • SanityCheck:算力健康檢測

      介紹如何在提交DLC任務時開啟健康檢測功能。健康檢測會對參與訓練的資源進行全面檢測,自動隔離故障節點,并觸發后臺自動化運維流程,有效減少任務訓練初期遇到問題的可能性,提升訓練成功率。

    • EasyCkpt:AI大模型高性能狀態保存恢復

      介紹提交DLC任務時,如何使用EasyCkpt。EasyCkptPyTorch大模型訓練場景提供全過程進度無損的模型保存和恢復能力。

    • RDMA:使用高性能網絡進行分布式訓練

      當使用靈駿智算資源(Serverless)提交訓練任務時,支持使用高性能網絡(RDMA)進行分布式訓練。介紹使用RDMA的相關配置說明。

    • eRDMA:使用高性能網絡進行分布式訓練

      PAI通用計算資源中的部分GPU機型已支持彈性RDMA(eRDMA)能力。您只需使用特定鏡像提交基于這些GPU機型的DLC任務,系統將自動在容器內掛載eRDMA網卡,從而加速分布式訓練過程。

    • 使用閑時資源

      為了提升資源利用率并減少因資源配額錯配而導致的浪費,DLC提供了閑時資源功能。使用預付費資源配額提交DLC訓練任務時,您可以通過配置閑時資源,有效利用空閑資源,以提高資源的整體使用率。

    • DLC訓練任務中使用云存儲

      您可以在提交DLC任務時,通過代碼配置或掛載的方式配置OSS、NAS、CPFSMaxCompute存儲,從而方便地在訓練過程中直接讀寫相應存儲中的數據。

    • 訂閱任務日志

      通過配置SLS日志轉發功能,您能夠直接將當前工作空間中的DLC任務日志轉發至指定的SLS日志庫,實現自定義分析。

    • 使用競價任務

      支持使用靈駿智算競價資源創建DLC任務。

  3. 查看和管理訓練任務。

    任務提交完成后,您可通過查看訓練詳情了解任務運行情況。且支持對已創建的任務進行停止、克隆、分享、生成腳本和刪除等管理操作,詳情請參見管理訓練任務

  4. 監控訓練任務。

    提交訓練任務后,您可以通過以下操作監控訓練任務。

    • 提交了綁定數據集的訓練任務后,您可以使用Tensorboard查看訓練任務分析報告。

    • 使用云監控或ARMS查看DLC任務的資源狀況或配置告警規則。詳情請參見訓練監控與報警

    • 通過在PAI工作空間的事件中心中創建消息通知規則,以便跟蹤和監控DLC任務的狀態。詳情請參見消息通知。

  5. 配置訓練任務周期性調度。

    當測試數據或超參數更新,并需要持續進行增量訓練和模型調優時,您可以通過周期性調度定期提交DLC任務。

更多DLC相關的使用案例,請參見DLC使用案例匯總