數(shù)據(jù)集加速器(DatasetAccelerator)
數(shù)據(jù)集加速器(DatasetAccelerator,簡(jiǎn)稱DatasetAcc)依托于阿里云構(gòu)建的PaaS服務(wù),主要解決云上AI加速-數(shù)據(jù)集加速的場(chǎng)景。在機(jī)器學(xué)習(xí)訓(xùn)練場(chǎng)景下,通過(guò)對(duì)客戶訓(xùn)練的數(shù)據(jù)集進(jìn)行預(yù)分析和處理,為各種云原生的訓(xùn)練引擎提供統(tǒng)一的數(shù)據(jù)集訪問(wèn)加速方案,最終提升整體訓(xùn)練效率。
架構(gòu)圖
數(shù)據(jù)集加速器的架構(gòu)圖如下:
使用限制
在使用數(shù)據(jù)集加速器之前,請(qǐng)您先了解以下使用限制。
僅支持對(duì)存儲(chǔ)在阿里云上的數(shù)據(jù)集進(jìn)行加速,例如:OSS或CPFS。
僅支持存儲(chǔ)在阿里云上的非加密數(shù)據(jù)集。
數(shù)據(jù)集加速器內(nèi)的數(shù)據(jù)是只讀狀態(tài),不支持動(dòng)態(tài)寫入數(shù)據(jù)。
單個(gè)數(shù)據(jù)集加速實(shí)例支持加速的數(shù)據(jù)集容量最多為100 TB。
計(jì)費(fèi)說(shuō)明
數(shù)據(jù)集加速器按購(gòu)買容量和時(shí)長(zhǎng)計(jì)費(fèi),計(jì)費(fèi)詳情請(qǐng)參見數(shù)據(jù)集加速器(DatasetAccelerator)計(jì)費(fèi)說(shuō)明。
產(chǎn)品特性
支持圖片、文本、視頻等海量小文件的訓(xùn)練優(yōu)化。
通過(guò)感知深度學(xué)習(xí)訓(xùn)練的模型類型、網(wǎng)絡(luò)結(jié)構(gòu),對(duì)圖片、文本、視頻等數(shù)據(jù)進(jìn)行預(yù)先打包和處理,提升海量小文件訓(xùn)練場(chǎng)景的性能。
全托管,開箱即用。
云上全托管服務(wù),操作簡(jiǎn)單,開通即可使用。
彈性可伸縮。
依托于云上IaaS(Infrastructure-as-a-Service)層能力,實(shí)現(xiàn)資源快速擴(kuò)容、彈性可伸縮。
共享使用。
多個(gè)訓(xùn)練集群可以共享使用數(shù)據(jù)集加速器內(nèi)的數(shù)據(jù)集進(jìn)行訓(xùn)練。
安全多租戶,確保數(shù)據(jù)訪問(wèn)安全。
實(shí)現(xiàn)多租戶隔離,保障不同用戶的數(shù)據(jù)安全。
基本概念
在使用數(shù)據(jù)集加速器之前,請(qǐng)您先了解以下基本概念。
數(shù)據(jù)集加速實(shí)例(Instance)
數(shù)據(jù)集加速產(chǎn)品的計(jì)費(fèi)單位和管理單位。在數(shù)據(jù)集加速器創(chuàng)建預(yù)付費(fèi)實(shí)例時(shí),會(huì)預(yù)定對(duì)應(yīng)的云上相關(guān)資源,所以在創(chuàng)建實(shí)例時(shí)即開始計(jì)費(fèi);在后付費(fèi)場(chǎng)景中,加速實(shí)例的收費(fèi)按照加速槽的用量按需付費(fèi)。
加速槽(Slot)
單個(gè)數(shù)據(jù)集服務(wù)單位。一個(gè)數(shù)據(jù)集加速實(shí)例可以創(chuàng)建多個(gè)加速槽,一個(gè)加速槽用于加速一個(gè)數(shù)據(jù)集,可以實(shí)現(xiàn)多個(gè)深度學(xué)習(xí)訓(xùn)練任務(wù)使用不同的數(shù)據(jù)集同時(shí)訓(xùn)練的場(chǎng)景。
數(shù)據(jù)集加速實(shí)例和加速槽的關(guān)系
一個(gè)用戶可以開通多個(gè)數(shù)據(jù)集加速實(shí)例,每個(gè)數(shù)據(jù)集加速實(shí)例可以申請(qǐng)多個(gè)不同容量的數(shù)據(jù)集加速槽,即數(shù)據(jù)集加速實(shí)例:數(shù)據(jù)集加速槽=1:n,一個(gè)數(shù)據(jù)集加速槽和一個(gè)數(shù)據(jù)集存儲(chǔ)綁定。
操作流程
數(shù)據(jù)集加速器完整的使用流程,主要包括以下步驟。
創(chuàng)建及管理數(shù)據(jù)集加速實(shí)例
您可以綜合考慮自身業(yè)務(wù)、團(tuán)隊(duì)規(guī)模、訓(xùn)練頻次及各種訓(xùn)練的數(shù)據(jù)集大小,來(lái)創(chuàng)建數(shù)據(jù)集加速實(shí)例。一個(gè)數(shù)據(jù)集加速實(shí)例可以通過(guò)創(chuàng)建多個(gè)加速槽,來(lái)支持多個(gè)數(shù)據(jù)集加速(對(duì)應(yīng)不同的訓(xùn)練任務(wù))。
因數(shù)據(jù)集加速器需要額外消耗云上資源,如果您需要確保對(duì)重要的訓(xùn)練任務(wù)的數(shù)據(jù)進(jìn)行加速,建議通過(guò)預(yù)付費(fèi)模式預(yù)先鎖定數(shù)據(jù)集加速實(shí)例的空間大小。
在選定的數(shù)據(jù)集加速實(shí)例中,根據(jù)訓(xùn)練使用的一個(gè)數(shù)據(jù)集大小,創(chuàng)建數(shù)據(jù)集加速槽。一個(gè)數(shù)據(jù)集加速實(shí)例可以包含多個(gè)加速槽,所有加速槽的存儲(chǔ)總和不能超過(guò)所屬的數(shù)據(jù)集加速實(shí)例的容量。
創(chuàng)建加速槽,系統(tǒng)會(huì)根據(jù)數(shù)據(jù)類型、數(shù)據(jù)大小、訓(xùn)練的框架及模型等因素,對(duì)關(guān)聯(lián)的數(shù)據(jù)集數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。在完成加速初始化工作后,數(shù)據(jù)集加速器會(huì)提供相關(guān)接口,供訓(xùn)練任務(wù)直接使用。
在PAI平臺(tái)創(chuàng)建數(shù)據(jù)集時(shí),支持開啟數(shù)據(jù)集加速功能。您可以在創(chuàng)建DSW實(shí)例或提交DLC訓(xùn)練任務(wù)時(shí),直接使用已開啟加速的數(shù)據(jù)集,提升數(shù)據(jù)讀取效率。