在使用數據集加速器(DatasetAccelerator)進行訓練數據加速前,您需要創建數據集加速槽來綁定數據源的存儲地址。系統會根據數據源類型、數據大小、訓練的框架以及模型等因素,對關聯的數據集數據進行預處理,以提高對數據集數據的訪問速度。本文為您介紹如何創建和管理數據集加速槽。
前提條件
已創建數據集加速實例,具體操作,請參見創建及管理數據集加速實例。
創建數據集加速槽
登錄PAI控制臺。
進入創建加速槽配置面板。
您可以通過以下任意一種方式進入創建加速槽配置面板。
方式一:在加速槽頁簽中創建加速槽。
在左側導航欄,單擊 。
在加速槽頁簽中,單擊創建加速槽。
方式二:在加速實例詳情頁面創建加速槽。
說明使用該方式創建加速槽時,所屬實例為當前加速實例,不支持選擇其他加速實例。
在左側導航欄,單擊 。
在加速實例頁簽中,單擊目標實例名稱,進入加速實例詳情頁面。
在數據集加速槽頁簽中,單擊創建加速槽。
在創建加速槽配置面板,配置以下關鍵參數。
參數
描述
所屬實例
選擇已創建的加速實例。
綁定云產品
支持將數據集加速槽綁定到與加速實例配置的數據源類型一致的云產品上。取值如下:
阿里云對象存儲OSS
讀寫屬性:設置OSS的讀寫權限。支持只讀和可讀寫。
選定OSS路徑:選擇數據集在OSS中的存儲目錄。
云原生大數據計算服務MaxCompute
MaxCompute項目名:選擇已創建的MaxCompute項目。
MaxCompute表名:選擇已創建的MaxCompute表名稱。
阿里云文件存儲(通用型NAS)&阿里云文件存儲(極速型NAS)&阿里云文件存儲CPFS
選擇文件系統:選擇已創建的文件系統的ID。
文件系統掛載點:選擇掛載點,通過掛載點訪問文件系統。
文件系統路徑:選擇NAS中已有的存儲路徑。默認為
/
。
最大容量
僅綁定云產品選擇除云原生大數據計算服務MaxCompute外的其他類型時,支持配置該參數。
配置數據集加速槽容量。您可以參考需要加速的具體數據集容量來配置。
重要加速槽容量需要大于等于數據集容量。
所屬加速實例可用空間
僅綁定云產品選擇云原生大數據計算服務MaxCompute時支持配置該參數。
系統將基于您選定的MaxCompute表自動加載分區信息。您也可以手動調整以選擇特定分區進行加速。
系統默認為每個加速槽分配500 GiB的存儲空間,超出部分,系統將依據分區表的大小自動進行存儲空間的分配。
掛載點
僅綁定云產品選擇阿里云對象存儲OSS和云原生大數據計算服務MaxCompute時,支持配置該參數。
在使用數據集加速器時,通過掛載點將數據集加速器掛載到訓練集群。在訓練集群中進行模型訓練時,訓練任務可以通過掛載點來訪問數據集加速槽,進而讀取加速槽關聯的數據集,提高了數據集訪問效率。
支持以下兩種配置方法:
選擇掛載點:選擇已有的掛載點。
新建掛載點:配置以下參數,創建新的掛載點。
掛載點類型:僅支持VPC。
VPC網絡:選擇已創建的專有網絡。如果沒有可用的專有網絡,您也可以單擊創建專有網絡進行創建。
交換機:選擇已創建的交換機。如果沒有可用的交換機,您也可以單擊創建交換機進行創建。
說明數據集加速器只支持專有網絡類型的掛載點。
一個專有網絡類型掛載點,可以被同VPC下不同交換機下的訓練集群使用。
添加掛載點時,文件系統會占用一個IP地址,建議您選擇內網IP較多的交換機。
掛載點只支持被同一VPC網絡的訓練集群掛載。
啟動自動回收
打開啟動自動回收開關,您可以配置數據集加速槽的運行時間或停止時間,等到指定時間時,系統會自動停止數據集加速槽。
單擊提交。
創建完成后,系統將初始化加速槽實例,待狀態變為運行中時,表示加速槽實例可以使用。
管理數據集加速槽
您可以在加速槽頁簽或加速實例詳情頁面管理數據集加速槽。
單擊加速槽名稱,進入加速槽詳情頁面,查看加速槽的基本信息。
將鼠標懸浮到②位置,查看加速槽數據集存儲類型。
您可以停止或刪除不再使用的加速槽,或克隆一個新的加速槽。您也可以單擊自動回收為加速槽配置運行時間或自動停止時間。
管理掛載點
您可以單擊加速槽名稱進入加速槽詳情頁面,在該頁面管理掛載點。
將鼠標懸浮在掛載點名稱上,來查看掛載點的配置信息。
單擊掛載點名稱,會展示安裝數據集加速器客戶端的部署配置。您可以在部署配置面板,單擊下載按鈕,下載數據集加速器客戶端的YAML文件,后續在訓練集群中配置數據集加速器時使用。
后續步驟
您可以啟用數據集的加速功能,以便在創建DSW實例或提交DLC任務時使用,從而加快對數據集的訪問速度。詳情請參見在PAI平臺使用數據集加速器。