創建完成用于數據標注的數據集后,您可以使用iTAG開展標注任務。本文為您介紹如何創建標注任務。
前提條件
使用限制
僅管理員或標注管理員可以進行標注相關操作。如果您的賬號沒有權限,請聯系管理員為您的賬號授予標注管理員權限,操作詳情請參見管理工作空間成員。
創建任務
進入智能標注(iTAG)。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間。
在左側導航欄,選擇數據準備>智能標注(iTAG)。
創建標注任務。
PAI默認使用舊版iTAG創建標注任務,如果您需要進行大模型數據標注或使用更豐富的模板,可以選擇使用新版iTAG創建標注任務。
舊版
單擊創建任務,跳轉至創建標注任務頁面。
在舊版標注任務頁面,配置如下參數。
參數
描述
任務名稱
長度為1~100個字符,以小寫字母、大寫字母、數字或中文開頭,可以包含下劃線(_)或短劃線(-)。
輸入數據集
選擇在PAI數據集管理中已經創建的數據集。
模板類型
支持以下類型的模型:
通用模板:平臺預置的常用模板。
自定義模板:詳情請參見標注模板。
模板
模板類型為通用模板時,支持選擇細分的通用模板類型,當前支持:
圖像類
模板的詳細應用場景,以及此類模板的輸入輸出數據格式詳情請參見圖像類。
圖片OCR:對圖片框選區域內的文字進行OCR。
目標檢測:對圖像中的具體目標進行定位。
圖像分類:按照預設的標簽對圖像進行分類標記。
PDF:對PDF進行OCR和標簽分類。
審核摳圖:對圖片進行審核和摳圖任務。
表格識別:利用算法預先對表格核心元素進行識別,按需進行編輯。
文本類
模板的詳細應用場景,以及此類模板的輸入輸出數據格式詳情,請參見文本類。
實體識別:建立文本實體之間的關系。
文本分類:對文本按照預設標簽進行分類標記,支持單標簽和多標簽分類。
實體關系:文本實體之間的關系,用于知識圖譜場景。
視頻類
模板的詳細應用場景,以及此類模板的輸入輸出數據格式詳情請參見視頻類。
視頻分類:對視頻按照預設標簽進行分類標記,支持單標簽和多標簽分類。
音頻類
模板的詳細應用場景,及此類模板的輸入輸出數據格式詳情請參見語音類。
音頻分類:對音頻按照預設標簽進行分類標記,支持單標簽和多標簽分類。
音頻分割:對音頻數據集的內容進行分割并分段添加標簽。
音頻識別:將音頻內容的文字進行識別。
選擇圖像內容所在字段
選擇標注任務中的數據(圖像/文本/視頻/音頻)內容在數據集中的對應字段名。
OCR識別結果配置
僅當在模板選擇圖像類中的圖片OCR時,支持配置該參數。
默認選中OCR識別結果,表示支持對圖片框選區域的文字進行OCR。
標簽配置
在本標注任務中,需要依次輸入后續打標人員需要識別、框選并打標的標簽名稱,然后按回車鍵完成添加。
例如,對圖片中的貓進行識別時,您可以添加標簽:“貓”、“美短”、“英短”等,便于后續的打標人員對樣本進行打標。
您可以同時設置本標注任務中,打標人員對一個樣本的一次框選打標時,可以對框選的對象打一個或多個標簽。
當一次框選打標只能打一個標簽時,可將該標簽設置為單選。
當一次框選打標可以打多個標簽時,可將該標簽設置為多選。
例如,對圖片中的貓進行識別時,如果標簽設置為多選,標注人員框選出樣本中的貓后,可以同時打上標簽“貓”、“美短”。
說明此處的單選與多選指的是對一個樣本的一次框選打標過程中,支持添加一個或多個標簽,而非對一個樣本進行多次框選打標。
是否開啟智能標注
具體配置詳情請參見數據預標注:智能標注配置。
任務說明
標注任務的簡要說明,可鏈接到說明文檔,上傳說明文檔或圖片,以及手動填寫文檔說明。
子任務包分配
iTAG會將所有數據集中的標注任務按照指定規則匯總分配為一個個子任務包。在標注任務處理過程中,處理人員可以搶單獲取子任務包,進行子任務包內的所有標注任務的處理。
當前支持通過以下規則來分配子任務包:
固定大小:每個子任務包中包含的標注任務數量為固定值。設置為固定大小時,數據集的數據量與子任務包中的任務數范圍有如下對應關系:
當數據集大小為0~2萬條數據時,子任務包大小范圍是1~200條。
當數據集大小為2萬~10萬條數據時,子任務包大小范圍是5~200條。
當數據集大小為10萬~50萬條數據時,子任務包大小的范圍為25~200條。
當數據集大小為50萬~100萬條數據時,子任務包的大小范圍為50~200條。
按導入字段:按照數據集中所選字段來劃分子任務包,該字段數值相同的數據會放在同一個子任務包中。
定向派單:針對特定標注人員或團隊進行劃分子任務包。
檢查比例
如果您選擇的任務流程包括檢查環節(例如打標-檢查、打標-檢查-驗收),則需要配置在檢查環節中,對標注任務進行抽查的比例,默認為100%。
人員配置
根據選擇的任務流程,配置標注人員/組、檢查人員/組、驗收人員/組或任務管理員。您可以與該工作空間下的多個成員協作完成標注任務。iTAG中的角色權限,請參見iTAG概述。
配置完成后,單擊創建。
新版
單擊創建任務,跳轉至創建標注任務頁面。
單擊,進入管理中心>任務管理頁面。
單擊,然后選擇新版創建,配置相關參數。
數據選擇
選擇原始數據集或標注數據集,單擊下一步。
預覽數據及內容,單擊下一步。
模板選擇
您可以選擇使用已有模板、官方模板、自定義模板或新建模板,并進行編輯配置,完成后單擊下一步。
更多模板詳情,請參見標注模板。
任務配置
配置以下參數,完成后單擊創建任務。
參數
描述
基本信息
任務名稱
自定義標注任務的名稱。長度為1~100個字符,以小寫字母、大寫字母、數字或中文開頭,可以包含下劃線(_)或短劃線(-)。
分發模式
單人標注:搶單模式,每次搶1個任務包進行回答。
多人投票:每個任務包被多人按順序進行重復回答。
任務流程
分為標注、檢查和驗收三個環節,其中標注為必選環節,檢查和驗收為可選環節。
人員配置
根據選擇的任務流程,配置標注人員/組、檢查人員/組、驗收人員/組、任務管理員。您可以與該工作空間下的多個成員協作完成標注任務。iTAG中的角色權限,請參見iTAG概述。
您可以在租戶配置>人員管理頁面進行設置。
任務說明
標注任務的簡要說明,可鏈接到說明文檔,上傳說明文檔或圖片,以及手動填寫文檔說明。
優先級
數值越大,優先級越高。
業務類型
業務類型是對標注任務進行分類管理的標簽。您可以在租戶配置>云資源配置頁面,選擇業務類型配置然后進行設置。
任務標簽
在標注任務中,可以選擇后續打標人員需要識別、框選并打標的標簽名稱。您可以在租戶配置>云資源配置頁面,選擇標簽配置后進行設置。
智能標注
標注方式
可以選擇不使用,或使用離線預標注結果、或UDF方式進行標注。
高級配置
子任務包最大跳過數量
為子任務包設置最大跳過數量,超過指定數值后,則不能跳過任務。
子任務包超時廢棄
開啟后,當任務包超過規定的時間仍未被領取過,則廢棄此子任務包。
子任務包超時釋放
開啟后,當任務包超過規定的時間仍未被領取過,則釋放此子任務包。
允許標注人員釋放任務包
開啟后,允許標注人員釋放已領取的任務。
是否追加數據任務
追加數據到已有任務,可以有效避免任務頻繁創建或任務過于零散,只有管理員有權限進行該操作。
接口調用詳情,請參見AppendAllDataToTask - 追加數據。
管理任務
創建標注任務后,您可以在管理中心>任務管理頁面查看任務狀態、子任務包詳情或獲取標注結果等。
區域 | 任務 | 說明 |
① | 子任務包詳情 | 單擊子任務包詳情,可對具體的子任務包進行查看、轉派、釋放或廢棄的操作。
|
② | 獲取標注結果 | 單擊獲取標注結果,根據界面提示將標注結果導出。單擊獲取記錄,可查看導出的進度和結果。 具體操作,請參見導出標注結果數據。 |
③ | 下線/上線 | 上線或下線任務。 |
④ | 復制任務 | 單擊復制任務,根據實際需求配置任務名稱、數據集和任務模板,即可快速地基于已有的標注任務創建一個新的相似任務,避免重復配置。 |
⑤ | 人員分配 | 單擊人員分配,根據創建標注任務時配置的不同的任務流程,配置對應標注、檢查或驗收人員。 |
⑥ | 刪除 | 單擊刪除,并輸入任務ID,即可刪除該標注任務。 |
⑦ | 關注任務 | 單擊關注任務,即可在PAI控制臺的iTAG首頁快速查看和訪問該任務。 |