為了方便您快速提交訓練任務,您需要在創建訓練任務前準備好所需的資源,并配置好可能需要使用的鏡像、數據集和代碼集。PAI支持添加文件系統NAS、CPFS或對象存儲OSS類型的數據集以及Git代碼集。本文介紹提交訓練任務前所需的準備工作。
前提條件
如果您使用OSS作為存儲系統,請確保已經根據業務需求為DLC授予了OSS訪問權限。否則掛載OSS后,進行數據訪問時,可能產生I/O錯誤。關于如何為DLC授予OSS訪問權限,請參見云產品依賴與授權:DLC。
使用限制
OSS并非一個真正的文件系統,而是一個分布式對象存儲。因此使用OSS作為存儲系統時,不支持文件系統的部分功能。例如,掛載OSS后,不支持對已經存在的文件進行追加寫和覆蓋寫。
步驟一:準備資源
提交訓練任務前,您需要準備計算資源,用于后續AI訓練。以下資源任選其一即可:
步驟二:準備鏡像
提交訓練任務前,請準備訓練環境需要安裝的鏡像。以下鏡像任選其一即可:
官方鏡像:針對特定于阿里云服務的優化和集成,PAI提供了基于不同框架的官方鏡像。此類鏡像適合在阿里云平臺上進行訓練任務,能夠獲得更好的兼容性和性能。前往PAI控制臺的AI資產管理鏡像頁面,在鏡像頁面的PAI官方鏡像頁簽中,您可以通過篩選使用子產品為DLC,來查看支持提交DLC任務的鏡像列表詳細信息。
自定義鏡像:如果您的訓練任務需要特殊的環境或依賴,可選擇使用您添加到PAI的自定義鏡像,在選擇前,您需要先將自定義鏡像添加到PAI中。為了方便管理和使用,建議您在工作空間的自定義鏡像。
頁面中,將該鏡像添加為PAI的AI資產,便于多個訓練任務直接選擇使用。操作詳情請參見重要使用靈駿智算資源提交訓練任務時,如果選擇使用自定義鏡像提交訓練任務,則相關注意事項,請參見RDMA:使用高性能網絡進行分布式訓練。
鏡像地址:提交訓練任務時,支持填寫您的自定義鏡像或官方鏡像地址。您可以前往PAI控制臺的AI資產管理鏡像頁面,查看鏡像地址。
步驟三:準備數據集
提交訓練任務前,您可以將訓練任務所需的數據上傳至對象存儲OSS、文件存儲NAS或文件存儲CPFS后,并將其創建為訓練任務可直接使用的自定義數據集。您也可以直接掛載對象存儲(OSS)數據或公共數據集。以下內容為您介紹如何準備自定義數據集:
支持的數據集類型
支持對象存儲(OSS)、文件存儲(通用型NAS)、文件存儲(極速型NAS)、文件存儲(CPFS)和文件存儲(智算CPFS)類型的數據集。除文件存儲(智算CPFS)類型外,其他類型的數據集均支持開啟數據集加速功能。后續提交分布式訓練任務時,可直接使用已開啟加速的數據集,提升數據讀取效率。
創建數據集
操作入口及相關參數的配置詳情請參見創建及管理數據集。準備數據集時,有以下注意事項:
創建用于訓練任務的數據集時,僅支持從阿里云云產品這種類型的數據集,且屬性必須為文件夾。
由于OSS與NAS不同,并非一個真正的文件系統,而是一個分布式對象存儲。因此使用OSS作為存儲系統時,不支持文件系統的部分功能。例如,掛載OSS后,不支持對已經存在的文件追加寫和覆蓋寫。
如果創建的數據集類型為文件存儲(CPFS),則在提交訓練任務時,需要配置專有網絡,并選擇與CPFS一致的專有網絡。否則,提交的DLC訓練任務會運行異常,任務可能長時間處于環境準備中狀態。
開啟數據集加速功能
您可以開啟數據集加速功能,在提交訓練任務時,可以直接使用已開啟加速的數據集,提升數據讀取效率。詳情請參見在PAI平臺使用數據集加速器。
步驟四:準備代碼集
提交訓練任務前,您需將訓練任務可能需要使用的代碼添加為代碼集。為了方便管理和使用,建議您在工作空間的代碼配置。
頁面中,將該代碼添加為PAI的AI資產,便于多個訓練任務直接選擇使用。操作詳情請參見相關文檔
完成準備工作后,您可以創建訓練任務,詳情請參見創建訓練任務。