本章節介紹數據處理-任務配置相關功能。
平臺可支撐自動駕駛生產線的全流程工作,包括數據導入、數據標準化、數據預處理、數據預標注、人工標注、數據輸出等。
您可拖拽所需任務節點,為其設置屬性后,通過連線來快速構建所需工作流,并為其配置調度方式。
任務流配置說明
數據處理任務工作流的構建流程如下:
點擊“添加任務”按鈕添加工作流任務,并設置工作流的調度類型。
任務流名字:自定義。
調度類型:自動調度(定時)或手工調度(手動賦值變量)。
在系統節點列表中將所需節點拖拽至畫布上,并設置節點屬性。
任務流中支持包含一個或多個節點,您可根據業務需求選擇節點。
各節點的詳細配置說明,請參見下文“任務節點說明”。
將任務節點連線,形成工作流當任務流中包含多個任務節點時,連線上游節點的輸出,將自動作為下游節點的輸入數據集。
保存工作流并發布運行。
任務節點說明
下文為您說明各任務節點的配置,您可根據業務需求選擇一個或多個節點構建所需任務流。
數據導入
數據導入節點的構建流程如下:
將系統節點列表中的“數據導入”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
任務名稱:自定義。說明:該節點任務(或所在工作流)每執行一次,系統會使用“任務名稱(該節點)-日期“生成一個數據集(可在“數據定義>數據集管理”模塊查看)。
數據源:需選擇平臺關聯的OSS資源。
導入路徑:可填入OSS資源下的一個bucket,或一個目錄(目錄下僅包含數據,或包含多級子目錄均可)。
數據標準化
數據標準化節點的構建流程如下:
將系統節點列表中的“數據標準化”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
數據標準化算子名稱:選擇所需算子;可選項為您自定義的或平臺自帶的數據標準化算子(可在“數據定義>自定義算子管理”模塊下查看)。
源數據類型/目標數據類型:選擇算子后,系統會自動填入。說明:此處直接使用算子已配置的內容,不支持修改。如有修改需求,需在“數據定義>自定義算子管理”模塊對算子進行修改。
算法參數:算法運行時填寫的參數。
數據預處理
數據預處理節點的構建流程如下:
將系統節點列表中的“數據預處理”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
數據預處理算子名稱:選擇所需算子;可選項為您自定義的或平臺自帶的數據預處理算子(可在“數據定義>自定義算子管理”模塊下查看)。
源數據類型/目標數據類型:選擇算子后,系統會自動填入。說明:此處直接使用算子已配置的內容,不支持修改。如有修改需求,需在“數據定義>自定義算子管理”模塊對算子進行修改。
算法參數:算法運行時填寫的參數。
數據預標注
數據預標注節點的構建流程如下:
將系統節點列表中的“數據預標注”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
數據預處理算子名稱:選擇所需算子;可選項為您自定義的或平臺自帶的數據預標注算子(可在“數據定義>自定義算子管理”模塊下查看)。
源數據類型/目標數據類型:選擇算子后,系統會自動填入。說明:此處直接使用算子已配置的內容,不支持修改。如有修改需求,需在“數據定義>自定義算子管理”模塊對算子進行修改。
算法參數:算法運行時填寫的參數。
人工標注任務
人工標注任務用于將標準化、預處理、預標注后的數據輸出到人工標注系統中進行數據標注。
人工標注任務節點的構建流程如下:
將系統節點列表中的“人工標注任務”節點拖拽至畫布。
配置節點屬性:選擇標注系統,并設置相關信息。
產品上目前支持直接向阿里云數字服務ADS打標系統發送人工標注任務并回流結果。
如您需要關聯其他打標系統,可聯系阿里云團隊進行適配。
數據處理及打標任務
數據處理及打標任務用于跟蹤人工標注系統的標注進度,并將人工標注系統結果拉回到平臺進行后續處理。
數據處理及打標任務節點的構建流程如下:
將系統節點列表中的“數據處理及打標任務”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
處理方法:可選擇“按時間段切割數據”或“按標簽條件切割數據”。
按時間段切割數據:選擇后需設置時間軸對齊方式(絕對時間、相對時間)即通過指定絕對時間區間或相對時間區間,在選定數據集范圍(名稱匹配或上游輸入)中,篩選滿足條件的數據。
按標簽條件切割數據:選擇后需設置標簽條件表達式即通過各類已有的標簽組合條件或其他條件的組合,在選定數據集范圍(名稱匹配或上游輸入)中,篩選滿足條件的數據。
創建為新數據集:如勾選,則會將滿足時間段條件/標簽條件的數據,使用您指定的名稱生成一個新數據集。
打數據標簽:選擇“按標簽條件切割數據”時,可勾選后可快速設置相應數據標簽。
數據輸出任務
數據輸出任務即將數據集打包輸出至云計算對象存儲中。
數據輸出任務節點的構建流程如下:
將系統節點列表中的“數據輸出任務”節點拖拽至畫布。
配置節點屬性。其中,關鍵參數說明如下:
數據源:需選擇平臺關聯的OSS資源。
導出路徑:可填入OSS資源下的一個bucket,或一個目錄(目錄下僅包含數據,或包含多級子目錄均可)。