補數據任務能夠支持您以不同的調度方式對歷史數據進行回刷。對于需要定期進行補數據的場景,您可以通過補數據的定時調度功能進行定期補數據;對于經常補數據的節點,但補數據時間及補數據業務日期不確定的場景,您可以通過創建手動運行的補數據任務進行補數據。本文將為您介紹如何新建補數據任務。
操作步驟
在Dataphin首頁,單擊頂部菜單欄的研發->任務運維。
按照以下操作指引,進入新建補數據任務對話框。
選擇項目(Dev-Prod模式需要選擇環境)->單擊補數據任務->單擊+新建補數據任務。
在新建補數據任務對話框中,配置補數據參數。
參數
說明
基本信息
補數據任務名稱
填寫補數據任務名稱,128個字符以內。
補數據任務負責人
選擇補數據任務負責人。
補數據范圍
起始節點
選擇補數據范圍的起始節點。
下游任務選擇
說明若起點任務是邏輯表,下游任務展示范圍取決于選中需要補數據的邏輯表字段。
列表模式:適用于所有層級的下游任務,總共最多2000個。且任務依賴可快捷選擇1~10層以及全部層級。
過濾暫停任務及其下游:
默認勾選,選中后,列表不展示指定層級和篩選條件下,調度方式為暫停調度的節點及其全部下游,同時取消已勾選的暫停任務。
對于邏輯表,只要包含了暫停的字段即被過濾;依賴下游列表中被標識了暫停的邏輯表包含的所有字段的下游任務也均被過濾。
說明下游邏輯表字段只能整體選中補數據,不能只過濾掉暫停的字段。
海量模式:如果列表模式無法滿足您對下游節點選擇的要求(例如節點數量過多,或者需要批量選擇某些制定節點),您可以選擇海量模式,海量模式將按照篩選條件從當前節點向下查找選中范圍內的任務,并依據依賴關系進行編排。適用于需要全局補數據的場景。同時海量模式支持以下篩選參數:
覆蓋范圍:支持通過指定項目、指定節點輸出名稱、當前節點的全部下游、指定一級子節點及其全部下游、指定終點來指定范圍。
指定項目:通過指定項目來指定補數據范圍。
指定節點輸出名稱:通過填寫節點輸出名稱來指定補數據范圍。輸入多個時,需以回車換行。最多輸入1000個。
當前節點的全部下游:補當前節點的全部下游節點數據。
指定一級子節點及全部下游:補當前節點的若干個一級子節點及其全部下游節點。
指定終點:將補起點到終點鏈路上所有的節點數據。起點默認為當前節點,不支持修改。終點支持選擇多個終點節點。
指定節點名稱:通過填寫節點名稱來指定補數據范圍。多個節點以回車換行,最多輸入5000個字符。一個節點名稱存在多個任務時,您可以單擊提示信息的選擇補數據節點,在存在節點名稱重復的節點對話框中,選擇對應節點,進行二次確認需要補數據的節點。
說明如果所選的終點節點非起點的下游節點,則只對起點和終點兩個孤立節點進行補數據。
邏輯表任務終點只支持選擇到全表(全部字段)。
選中范圍內排除:指定需要在覆蓋范圍內排除的節點輸出名稱或節點名稱。默認選中排除暫停節點及其下游,同列表模式中過濾暫停節點及其下游。
說明在選中范圍內排除某些任務后,補數據實例的DAG圖上可能產生孤立的任務節點。
適用于只對下游某一個任務節點進行補數據的場景。
已選節點列表:海量模式下。支持查看已選的節點列表以確認補數據節點或單擊導出已選節點列表導出為本地文件,文件格式為
csv
。
運行配置
調度類型
支持定時調度或手動運行。
定時調度:補數據任務將會在設置的定時運行時間前一天23點前生成補數據實例進行調度運行。定時調度需配置定時運行時間及補數據業務日期。
定時運行時間:支持日、周、月。
說明月定時運行時間支持選擇月末日(每月最后一天)運行。
補數據業務日期:支持最近N天、最近N周(周日~周一)、最近N月(月初~月末日)或自定義補數據業務日期。
手動運行:手動生成補數據實例并運行。
高級配置
并發運行組數
并發運行組數用于控制同時有多少個補數據進程在運行。您可以選擇并發運行的組數,系統支持最少并發運行1組,最多并發運行12組。
業務日期的跨度時間小于并發運行組數,則實際并行組數為業務日期天數。
業務日期的跨度時間大于并發運行組數,則可能兼有串行和并行。相同組內的實例按業務日期順序運行,不同組之間的實例并行運行。例如,業務日期是1月11日~1月13日,并發運行組數為2,11號和12號為一組,13號為一組,11號和13號的實例同時開始運行,12號的實例則會在11號的實例運行完成后開始運行。
說明所選節點中存在跨周期依賴時不支持并發運行。
補數據順序
可選擇根據業務時間正序或倒序進行補數據。
說明所選節點中存在跨周期依賴時不支持按業務日期倒序補數。
本節點是否空跑
選擇本任務是否需要空跑:
是:當前任務對應的補數據實例空跑運行,即一調度到該任務便直接返回成功,沒有真正的執行該任務。
說明適用于當前節點不需要補數據,但是需要以當前節點為起點選中下游進行補數據的場景。
否:本節點正常運行。
暫停調度任務對應實例
配置暫停調度的任務生成的補數據實例的運行狀態:
暫停運行(可能會阻斷補數據進程):即暫停調度的任務生成的補數據實例均暫停運行,會阻斷下游實例正常運行。
說明適用于當前任務及其下游任務均不需要運行的場景。
空跑:若選擇空跑,則選中的暫停任務生成的補數據實例將直接空跑成功。
說明適用于當前任務無需運行,但下游任務需要按照調度配置正常運行的場景。
正常運行:暫停狀態的任務生成的補數據實例均正常運行。
說明適用于當前節點被設置為暫停調度,在選中的補數據業務日期需要正常運行的場景。
空跑調度任務對應實例
配置空跑調度的任務生成的補數據實例的運行狀態:
空跑:若選擇空跑,則選中的空跑調度任務生成的補數據實例將直接空跑成功。
正常運行:空跑狀態的任務生成的補數據實例均正常運行。
小時區間影響范圍
如果是小時、分鐘任務,則還需要配置生效范圍:
不影響日/周/月調度任務(選中即運行):即下游任務不受小時區間選擇的影響,全部運行。
日/周/月調度任務只有定時運行時間在選中小時區間內才會運行:即下游任務受小時區間影響,只有定時運行時間在選中小時區間內才運行。
指定臨時調度資源組
支持指定本次補數據操作臨時使用的資源組,以滿足臨時性的資源消耗需求。詳情請參見自定義調度資源組概述。 如果未指定臨時調度資源組,將使用每個任務配置的任務調度資源組進行調度運行。
說明配置的資源組僅支持選擇應用場景包含批量運維操作的資源組。
單擊確定,完成補數據任務的創建。
后續步驟
完成補數據任務創建后,您可以根據任務的調度類型對補數據任務進行運維管理,例如手動運行補數據任務、刪除補數據任務、轉交任務運維負責人等操作。更多信息,請參見: