數據集加速器(DatasetAccelerator)
數據集加速器(DatasetAccelerator,簡稱DatasetAcc)依托于阿里云構建的PaaS服務,主要解決云上AI加速-數據集加速的場景。在機器學習訓練場景下,通過對客戶訓練的數據集進行預分析和處理,為各種云原生的訓練引擎提供統一的數據集訪問加速方案,最終提升整體訓練效率。
架構圖
數據集加速器的架構圖如下:
使用限制
在使用數據集加速器之前,請您先了解以下使用限制。
僅支持對存儲在阿里云上的數據集進行加速,例如:OSS或CPFS。
僅支持存儲在阿里云上的非加密數據集。
數據集加速器內的數據是只讀狀態,不支持動態寫入數據。
單個數據集加速實例支持加速的數據集容量最多為100 TB。
計費說明
數據集加速器按購買容量和時長計費,計費詳情請參見數據集加速器(DatasetAccelerator)計費說明。
產品特性
支持圖片、文本、視頻等海量小文件的訓練優化。
通過感知深度學習訓練的模型類型、網絡結構,對圖片、文本、視頻等數據進行預先打包和處理,提升海量小文件訓練場景的性能。
全托管,開箱即用。
云上全托管服務,操作簡單,開通即可使用。
彈性可伸縮。
依托于云上IaaS(Infrastructure-as-a-Service)層能力,實現資源快速擴容、彈性可伸縮。
共享使用。
多個訓練集群可以共享使用數據集加速器內的數據集進行訓練。
安全多租戶,確保數據訪問安全。
實現多租戶隔離,保障不同用戶的數據安全。
基本概念
在使用數據集加速器之前,請您先了解以下基本概念。
數據集加速實例(Instance)
數據集加速產品的計費單位和管理單位。在數據集加速器創建預付費實例時,會預定對應的云上相關資源,所以在創建實例時即開始計費;在后付費場景中,加速實例的收費按照加速槽的用量按需付費。
加速槽(Slot)
單個數據集服務單位。一個數據集加速實例可以創建多個加速槽,一個加速槽用于加速一個數據集,可以實現多個深度學習訓練任務使用不同的數據集同時訓練的場景。
數據集加速實例和加速槽的關系
一個用戶可以開通多個數據集加速實例,每個數據集加速實例可以申請多個不同容量的數據集加速槽,即數據集加速實例:數據集加速槽=1:n,一個數據集加速槽和一個數據集存儲綁定。
操作流程
數據集加速器完整的使用流程,主要包括以下步驟。
您可以綜合考慮自身業務、團隊規模、訓練頻次及各種訓練的數據集大小,來創建數據集加速實例。一個數據集加速實例可以通過創建多個加速槽,來支持多個數據集加速(對應不同的訓練任務)。
因數據集加速器需要額外消耗云上資源,如果您需要確保對重要的訓練任務的數據進行加速,建議通過預付費模式預先鎖定數據集加速實例的空間大小。
在選定的數據集加速實例中,根據訓練使用的一個數據集大小,創建數據集加速槽。一個數據集加速實例可以包含多個加速槽,所有加速槽的存儲總和不能超過所屬的數據集加速實例的容量。
創建加速槽,系統會根據數據類型、數據大小、訓練的框架及模型等因素,對關聯的數據集數據進行數據預處理。在完成加速初始化工作后,數據集加速器會提供相關接口,供訓練任務直接使用。
在PAI平臺創建數據集時,支持開啟數據集加速功能。您可以在創建DSW實例或提交DLC訓練任務時,直接使用已開啟加速的數據集,提升數據讀取效率。