在進行數據處理或模型訓練之前,您需要準備好指定的數據集。PAI-AI資產管理提供了強大的數據集管理功能,允許您創建和管理數據集及其多個版本。通過數據集版本管理,您可以精確復現實驗、追蹤數據版本、記錄數據變更的血緣關系,并在新版本出現問題時快速切換至舊版本,從而確保業務的連續性。
數據集簡介
數據集管理功能支持對基礎數據集和標注數據集進行全面管理。基礎數據集通常包含大量的原始信息,主要用于預訓練模型以捕捉廣泛的特征和模式;標注數據集是經過人工標注的、具有明確標簽的數據,主要用于模型微調和評估,以提高模型在特定任務上的性能。
項目 | 基礎數據集 | 標注數據集 |
定義 | 未經標注的原始數據 | 經人工標注的帶標簽數據 |
數據處理 | 數據清洗、去重等 | 數據標注、驗證等 |
應用場景 |
|
|
進入數據集管理
登錄PAI控制臺。
在頂部左上角根據實際情況選擇地域。
在左側導航欄選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。
在左側導航欄選擇AI資產管理 > 數據集。
創建基礎數據集
在自定義數據集 > 基礎數據集頁簽下單擊新建數據集,在創建數據集時,數據存儲類型支持對象存儲(OSS)、文件存儲(通用型NAS、極速型NAS、CPFS、智算CPFS)和云原生大數據計算服務(MaxCompute),關鍵參數配置如下:
存儲類型為對象存儲(OSS)
參數 | 描述 |
類型 | 選擇數據的類型,支持圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在后續的標注場景中,系統會幫您進行數據集篩選。 |
所有者 | 選擇數據集所有者。僅工作空間管理員可配置該參數。 |
導入格式/OSS路徑 | |
默認掛載路徑 | 數據的默認掛載路徑,常用于DSW和DLC中:
|
開啟版本加速 | 當導入格式選擇文件夾時,支持開啟數據集版本加速。關鍵配置如下:
|
存儲類型為文件存儲
參數 | 描述 |
類型 | 選擇數據的類型,支持圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在后續的標注場景中,系統會幫您進行數據集篩選。 |
所有者 | 選擇數據集所有者。僅工作空間管理員可配置該參數。 |
選擇文件系統 | 選擇文件系統,和數據存儲類型對應。 |
文件系統掛載點 | 配置掛載點來訪問NAS文件系統。 |
文件系統路徑 | 配置NAS中已有的存儲路徑。例如 |
默認掛載路徑 | 數據的默認掛載路徑,常用于DSW和DLC中:
|
開啟版本加速 | 當數據存儲類型為通用型NAS、極速型NAS或CPFS時,支持開啟數據集版本加速。關鍵配置如下:
|
存儲類型為云原生大數據計算服務(MaxCompute)
參數 | 描述 |
類型 | 僅支持表格類型的數據。 |
所有者 | 選擇數據集所有者。僅工作空間管理員可配置該參數。 |
默認掛載路徑 | 數據的默認掛載路徑,常用于DSW和DLC中:
|
開啟版本加速 | 支持開啟數據集版本加速。關鍵配置如下:
|
新建基礎數據集版本
在自定義數據集 > 基礎數據集頁簽下單擊指定數據集操作列的新建版本。
關鍵說明如下:
數據集名稱、存儲類型、數據類型與原數據集V1版本相同,不可修改。
數據集版本由系統默認生成,不可修改。
其他關鍵參數配置,請參見創建基礎數據集中的參數說明。
查看公共數據集
系統內置多種公共數據集(如MMLU、CMMLU、GSM8K等),您可以在公共數據集頁簽下單擊數據集名稱,查看公共數據集基本信息。
管理數據集
對于基礎數據集,您可以對其進行版本列表查看、新建版本、公開和刪除等操作;對于標注數據集,您可以對其進行數據查看、公開和刪除等操作。
關鍵說明如下:
對于可見范圍為僅數據集所有者可見的數據集,您也可以單擊公開數據集,將數據集在工作空間內公開,讓所有工作空間成員均可以查看該數據集。一旦公開后,該數據集后續不能再轉為僅數據集所有者可見,請謹慎操作。
通過RAM用戶查看數據集數據時,如果提示沒有訪問權限,請為RAM用戶授權。
刪除數據集時,可能會影響已有的任務正常運行。一旦刪除,則不可恢復,請謹慎操作。