日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

創建及管理數據集

在進行數據處理或模型訓練之前,您需要準備好指定的數據集。PAI-AI資產管理提供了強大的數據集管理功能,允許您創建和管理數據集及其多個版本。通過數據集版本管理,您可以精確復現實驗、追蹤數據版本、記錄數據變更的血緣關系,并在新版本出現問題時快速切換至舊版本,從而確保業務的連續性。

數據集簡介

數據集管理功能支持對基礎數據集和標注數據集進行全面管理。基礎數據集通常包含大量的原始信息,主要用于預訓練模型以捕捉廣泛的特征和模式;標注數據集是經過人工標注的、具有明確標簽的數據,主要用于模型微調和評估,以提高模型在特定任務上的性能。

項目

基礎數據集

標注數據集

定義

未經標注的原始數據

經人工標注的帶標簽數據

數據處理

數據清洗、去重等

數據標注、驗證等

應用場景

  • 無監督學習

  • 預訓練模型,捕捉廣泛特征

  • 監督學習、模型評估

  • 微調模型,提高特定任務性能

進入數據集管理

  1. 登錄PAI控制臺

  2. 在頂部左上角根據實際情況選擇地域。

  3. 在左側導航欄選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間內。

  4. 在左側導航欄選擇AI資產管理 > 數據集

創建基礎數據集

自定義數據集 > 基礎數據集頁簽下單擊新建數據集,在創建數據集時,數據存儲類型支持對象存儲(OSS)、文件存儲(通用型NAS、極速型NAS、CPFS、智算CPFS)和云原生大數據計算服務(MaxCompute),關鍵參數配置如下:

image

存儲類型為對象存儲(OSS)

參數

描述

類型

選擇數據的類型,支持圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在后續的標注場景中,系統會幫您進行數據集篩選。

所有者

選擇數據集所有者。僅工作空間管理員可配置該參數

導入格式/OSS路徑

  • 當導入格式為文件時,OSS路徑需選擇一個文件,創建好的數據集將與此文件相對應,常用于iTAG的數據集創建。

  • 當導入格式為文件夾時,OSS路徑需選擇一個文件夾路徑,可被掛載在容器中,常用于DSWDLCEAS的數據集。

默認掛載路徑

數據的默認掛載路徑,常用于DSWDLC中:

  • DSW中,創建實例時,可以將已創建的文件系統掛載到該路徑。

  • DLC中,運行代碼時,系統會在該目錄下尋找文件,例如python /root/data/file.py

開啟版本加速

導入格式選擇文件夾時,支持開啟數據集版本加速。關鍵配置如下:

  • 最大容量:配置數據集加速槽容量。該容量需要大于等于數據集容量,您可以參考需要加速的數據集容量來配置。

  • 加速掛載點:默認使用內部掛載點,您也可以選擇已有的加速掛載點或新建掛載點。

    說明

    在使用靈駿智算資源場景時,如果加速掛載點選擇為新建掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換機需要與靈駿智算資源一致。

  • 加速版本默認掛載路徑:數據集版本的默認掛載路徑。

存儲類型為文件存儲

參數

描述

類型

選擇數據的類型,支持圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在后續的標注場景中,系統會幫您進行數據集篩選。

所有者

選擇數據集所有者。僅工作空間管理員可配置該參數

選擇文件系統

選擇文件系統,和數據存儲類型對應。

文件系統掛載點

配置掛載點來訪問NAS文件系統。

文件系統路徑

配置NAS中已有的存儲路徑。例如/

默認掛載路徑

數據的默認掛載路徑,常用于DSWDLC中:

  • DSW中,創建實例時,可以將已創建的文件系統掛載到該路徑。

  • DLC中,運行代碼時,系統會在該目錄下尋找文件,例如python /root/data/file.py

開啟版本加速

當數據存儲類型為通用型NAS、極速型NASCPFS時,支持開啟數據集版本加速。關鍵配置如下:

  • 最大容量:配置數據集加速槽容量。該容量需要大于等于數據集容量,您可以參考需要加速的數據集容量來配置。

  • 加速版本默認掛載路徑:數據集版本的默認掛載路徑。

存儲類型為云原生大數據計算服務(MaxCompute)

參數

描述

類型

僅支持表格類型的數據。

所有者

選擇數據集所有者。僅工作空間管理員可配置該參數

默認掛載路徑

數據的默認掛載路徑,常用于DSWDLC中:

  • DSW中,創建實例時,可以將已創建的文件系統掛載到該路徑。

  • DLC中,運行代碼時,系統會在該目錄下尋找文件,例如python /root/data/file.py

開啟版本加速

支持開啟數據集版本加速。關鍵配置如下:

  • 加速初始化配置:配置加速初始化代碼后單擊測試分區選擇配置

  • 加速掛載點:默認使用內部掛載點,您也可以選擇已有的加速掛載點或新建掛載點。

    說明

    在使用靈駿智算資源場景時,如果加速掛載點選擇為新建掛載點,則掛載點類型需選擇VPC,且選擇的VPC和交換機需要與靈駿智算資源一致。

  • 加速版本默認掛載路徑:數據集版本的默認掛載路徑。

新建基礎數據集版本

自定義數據集 > 基礎數據集頁簽下單擊指定數據集操作列的新建版本

image

關鍵說明如下:

  • 數據集名稱、存儲類型、數據類型與原數據集V1版本相同,不可修改。

  • 數據集版本由系統默認生成,不可修改。

  • 其他關鍵參數配置,請參見創建基礎數據集中的參數說明。

查看公共數據集

系統內置多種公共數據集(如MMLU、CMMLU、GSM8K等),您可以在公共數據集頁簽下單擊數據集名稱,查看公共數據集基本信息。

image

管理數據集

對于基礎數據集,您可以對其進行版本列表查看、新建版本、公開和刪除等操作;對于標注數據集,您可以對其進行數據查看、公開和刪除等操作。

image

關鍵說明如下:

  • 對于可見范圍僅數據集所有者可見的數據集,您也可以單擊公開數據集,將數據集在工作空間內公開,讓所有工作空間成員均可以查看該數據集。一旦公開后,該數據集后續不能再轉為僅數據集所有者可見,請謹慎操作。

  • 通過RAM用戶查看數據集數據時,如果提示沒有訪問權限,請RAM用戶授權

  • 刪除數據集時,可能會影響已有的任務正常運行。一旦刪除,則不可恢復,請謹慎操作。