Data Exchange數據集用于數據標注
用戶可以利用Data Exchange來創建數據集,或者將從云市場訂閱的數據集轉存為個人數據集。本文介紹通過Data Exchange數據應用功能,掃描和解析數據集文件,生成圖片/視頻/音頻或文本標注所需的manifest文件,從而便于在PAI-iTAG中進行數據標注。
選擇源數據集用于數據標注
在Data Exchange - 擁有的數據集頁面,選擇需要進行數據標注的數據集,點擊操作列“數據應用”
選擇需要進行標注的數據集版本,頁面默認選擇了最新的數據集版本,可以根據需要切換到其他數據集版本。
在數據使用場景選項,選擇“數據標注”。
選擇或創建PAI工作空間
數據標注依賴人工智能平臺-智能標注(PAI - iTAG)產品,您需要先開通PAI產品,iTAG是一款智能化數據標注平臺,支持圖像、文本、視頻、音頻等多種數據類型的標注以及多模態的混合標注。目前iTAG產品可以免費試用。
根據數據版本關聯的OSS Bucket所在地域,您需要選擇該地域下的一個PAI工作空間。如果在當前地域還沒有創建工作空間,“快速創建工作空間”可以為您快速創建工作空間。
需要注意,如果當前使用的子賬號/角色登錄,需要確保先成為PAI空間工作成員后,才可以選擇該PAI工作空間。詳情可以參考管理工作空間成員。
生成圖片/視頻/音頻標注manifest文件并同步到PAI-iTAG
在數據應用功能中,選擇同步的數據類型為“圖片/視頻/音頻”,隨后選擇當前數據集版本中需要進行標注的圖片/視頻/音頻文件所在的文件夾,并使用通配符功能對所選文件夾中的文件進行格式過濾,篩選出想要進行標注的文件。
點擊“數據展示加載”,預覽掃描文件夾找到的待標注文件列表,預覽的結果按照PAI-iTAG標注所需的manifest數據格式要求展示。圖片/音頻/視頻標注manifest格式中僅包含待標注的圖片、視頻、音頻文件地址,不包含待標注文件內容,具體可以參考附錄:標注數據格式。
設置保存manifest標注文件的目錄和文件名,默認保存在數據集版本所在OSS Bucket的dataset_input目錄中。
點擊提交,數據應用功能會保存manifest標注數據文件到指定位置,并創建PAI-iTAG數據集,創建成功后跳轉到PAI-iTAG的數據集管理頁面。
PAI-iTag當前支持圖像類(jpg/cur/webp/png/svg/gif/bmp/jpeg/ico/web)、視頻類(mp4)、音頻類(mp3)格式進行標注,其余格式可能無法完成正常標注。
生成文本標注manifest文件并同步到PAI-iTAG
在數據應用功能中,選擇同步的數據類型為“文本”,隨后選擇當前數據集版本中需要進行標注的CSV/Excel文件。
點擊“數據展示加載”,預覽解析文件內容,預覽的結果按照PAI-iTAG標注所需的manifest數據格式要求展示。文件標注manifest格式中包含了解析的文件內容,具體可以參考附錄:標注數據格式。
設置保存manifest標注文件的目錄和文件名,默認保存在數據集版本所在OSS Bucket的dataset_input目錄中。
點擊提交,數據應用功能會保存manifest標注數據文件到指定位置,并創建PAI-iTAG數據集,創建成功后跳轉到PAI-iTAG的數據集管理頁面。
數據當前支持解析CSV/Excel格式文件并轉換為manifest標注格式,其他格式需要自行解析生成manifest格式。
在PAI-iTAG對數據集進行標注
在PAI-iTAG創建數據標注任務,關聯上一步創建的PAI-iTAG數據集,選擇標注配置類型,配置任務分配方式、標注人員、標注流程、智能標注服務等選項,發起數據標注任務。具體可以參考創建標注任務。
PAI標注結果同步到Data Exchange數據集
對已經完成的標注任務,在iTag任務中心可以通過“獲取標注結果”導出為標注數據集,設置OSS輸出位置,可以將標注結果通過manifest格式導出到OSS。標注結果數據集可以通過數據管理頁面 - 標注數據集標簽頁查看。具體可以參考導出標注結果數據。
在標注數據集標簽頁,選擇需要同步到Data Exchange的數據集,點擊操作欄“同步至Data Exchange”,將為您創建指向標注結果manifest文件的Data Exchange數據集。
在Data Exchange擁有的數據集頁面可以查看上一步同步到Data Exchange的標注結果數據集,點擊繼續創建,編輯版本名稱、描述、文件類型,保存后數據集就創建完成了。您可以將數據集用于后續數據應用,或通過云市場進行商業化。
同步到Data Exchange的標注結果數據集的默認版本中,已關聯了保存到OSS的標注結果manifest文件,且不可以修改。