補數據可通過補歷史或未來一段時間的數據,將寫入數據至對應時間分區。代碼中的調度參數,將根據補數據選擇的業務時間自動替換為具體值,并結合業務代碼將對應時間數據寫入指定分區。具體寫入的分區與執行的代碼邏輯,與任務定義的代碼有關。本文為您介紹舊版補數據如何執行補數據操作并管理補數據實例。
背景信息
周期任務開發完成并提交發布后,任務會按照調度配置定時運行。如果您希望在指定時間段運行周期任務,可使用補數據功能。DataWorks支持的補數據方式如下。
補數據模式 | 描述 |
用于對當前節點進行補數據操作。 | |
用于對當前節點及下游節點進行批量補數據操作,通常在當前節點的下游節點數量較少時使用該功能,支持指定部分下游節點。 | |
用于對當前節點及下游節點進行批量補數據操作,通常在當前節點的下游節點數量較多時使用該功能,支持按照項目篩選下游節點。同時,支持設置節點白名單和黑名單,選中或過濾目標節點。 說明 海量節點模式最多支持同時對 | |
用于靈活選擇一批節點進行批量補數據操作,節點之間可以不存在依賴關系。您可在DAG圖上使用可視化方式添加節點,也可在任務列表中添加節點。
|
同時,DataWorks提供了更加便捷的新版補數據操作供您使用,詳情請參見執行補數據并查看補數據實例(新版)。
使用限制
地域限制
僅華南1(深圳)、中東東部 1(迪拜)地域支持周期任務使用高級模式進行補數據。
實例清理原則
不支持手動刪除補數據實例,實例過期后(30天左右)平臺將自動刪除。如果任務不需要再運行,可選擇凍結實例。
公共調度資源組實例保留一個月(30天),日志保留一周(7天)。
獨享調度資源組與Serverless資源組的任務實例、日志均保留一個月(30天)。
運行完成的實例,當日志大于3 MB時,平臺會每天定時清理。
注意事項
實例運行相關
當補一個區間的數據時,在啟動補數據的第一天存在一個運行失敗的實例,則當天的補數據實例會被置為失敗狀態,第二天的實例也不會啟動運行(只有當天的全部任務實例都成功,第二天的任務實例才會開始運行)。
小時或分鐘任務補某一天數據時,當天所有實例是否并發執行與任務是否設置自依賴有關。
如果周期實例和補數據實例均啟動運行,為了保證周期實例的正常運行,您需要終止補數據實例的運行。
調度資源相關
補數據實例過多或并行數過高可能導致周期調度的資源緊張,請根據需求合理配置。
為避免補數據實例占用過多的資源而影響周期實例運行,平臺對補數據實例制定以下規則:
如果補數據選擇業務日期為昨天(T-1),即補當天數據時,補數據任務優先級由任務所在基線優先級決定。
如果補數據選擇業務日期為歷史業務日期(T-2)時,補數據任務將按照以下規則對任務進行降級處理:
7級、8級任務優先級降為3級。
5級、3級任務優先級降為2級。
1級任務優先級保持不變。
進入補數據界面
進入運維中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入運維中心。
在左側導航欄,單擊
,進入周期任務頁面。目標節點補數據。
單擊周期任務列表中的目標任務名稱,進入任務的DAG圖界面。
在DAG圖中,右鍵單擊目標節點,鼠標懸停至補數據,選擇相應的補數據模式。
執行補數據
選擇補數據模式后,根據界面指引配置相關參數,配置完成單擊確定,啟動補數據。不同補數據模式的配置參數存在差異,具體如下。
當前節點補數據
選擇當前節點作為本次補數據的任務范圍。
參數說明如下。
模塊 | 參數 | 描述 |
基礎信息 | 補數據名稱 | 平臺自動生成,您可按需修改。 |
選擇要補數據的任務 | 當前任務 | 當前選中的任務。 |
設置補數據運行策略 | 業務日期 | 指定所選任務需要進行補數據的業務日期,精確到天。
說明
|
指定周期 | 指定所選任務需要運行的周期,定時時間在該時間段內的實例才會生成并執行,您可通過本功能指定小時、分鐘調度任務只運行指定周期內的數據。 說明
| |
并行 | 若對多個業務日期執行補數據時,可指定若干個分組并發執行本次補數據任務。取值如下:
并行數取值范圍為
| |
補數據告警 | 設置此次補數據操作是否會觸發告警。
| |
觸發條件 | 設置告警觸發條件:
說明 僅當補數據告警選擇是時,需配置該參數。 | |
告警方式 | 選擇通過短信與郵件、短信、郵件等方式接收告警,告警接收人為補數據的發起人。 說明
| |
順序 | 選擇按照業務日期正序或業務日期倒序進行補數據。 | |
調度資源組 | 指定運行補數據實例使用的資源組。
說明 請注意配置資源組網絡連通,否則任務可能運行失敗。若指定的資源組未綁定相關工作空間,則仍將使用原有周期任務的資源組。 | |
運行時間段 | 指定本次生成的補數據任務在什么時間執行。
| |
補數據任務校驗 | 校驗不通過時終止任務執行 | 指定本地生成的補數據任務在校驗不通過時的狀態。
說明 補數據任務將對基本情況和潛在風險項進行檢測,分析內容如下:
|
當前節點及下游節點補數據
選擇當前節點及下游節點作為本次補數據的任務范圍。通常在當前節點的下游節點數量較少時使用該功能,支持指定部分下游節點。
參數說明如下。
模塊 | 參數 | 描述 |
基礎信息 | 補數據名稱 | 平臺自動生成,您可按需修改。 |
選擇要不數據的任務 | 補數據包含當前任務 | 設置此次補數據操作是否包含當前任務。
|
選擇下游任務 | 選擇此次補數據的下游任務。 您可根據任務名稱、層級等條件進行篩選過濾,選擇需要補數據的目標節點。 說明
| |
設置補數據運行策略 | 業務日期 | 指定所選任務需要進行補數據的業務日期,精確到天。
說明
|
并行 | 若對多個業務日期執行補數據時,可指定若干個分組并發執行本次補數據任務。取值如下:
并行數取值范圍為
| |
補數據告警 | 設置此次補數據操作是否會觸發告警。
| |
觸發條件 | 設置告警觸發條件:
說明 僅當補數據告警選擇是時,需配置該參數。 | |
告警方式 | 選擇通過短信與郵件、短信、郵件等方式接收告警,告警接收人為補數據的發起人。 說明
| |
順序 | 選擇按照業務日期正序或業務日期倒序進行補數據。 | |
調度資源組 | 指定運行補數據實例使用的資源組。
說明 請注意配置資源組網絡連通,否則任務可能運行失敗。若指定的資源組未綁定相關工作空間,則仍將使用原有周期任務的資源組。 | |
運行時間段 | 指定本次生成的補數據任務在什么時間執行。
| |
補數據任務校驗 | 校驗不通過時終止任務執行 | 指定本地生成的補數據任務在校驗不通過時的狀態。
說明 補數據任務將對基本情況和潛在風險項進行檢測,分析內容如下:
|
海量節點模式補數據
選擇當前節點及下游節點作為本次補數據的任務范圍。通常在當前節點的下游節點數量較多時使用該功能,支持按照工作空間篩選下游節點。
海量節點模式最多支持同時對2W
個節點進行補數據。
參數說明如下。
模塊 | 參數 | 描述 |
基礎信息 | 補數據名稱 | 平臺自動生成,您可按需修改。 |
選擇要補數據的任務 | 補數據包含當前任務 | 設置此次補數據操作是否包含當前任務。
|
補數據工作空間 | 您可根據業務需求,在您的所有項目區域,選擇目標工作空間,將其添加至補數據的項目區域,為目標工作空間中所選節點進行補數據。 說明
| |
節點白名單 | 除選中的DataWorks工作空間中包含的節點外,仍需要進行補數據的節點。 | |
節點黑名單 | 選中的DataWorks工作空間中不需要進行補數據的節點。 | |
設置補數據運行策略 | 業務日期 | 指定所選任務需要進行補數據的業務日期,精確到天。
說明
|
補數據告警 | 設置此次補數據操作是否會觸發告警。
| |
觸發條件 | 設置告警觸發條件:
說明 僅當補數據告警選擇是時,需配置該參數。 | |
告警方式 | 選擇通過短信與郵件、短信、郵件等方式接收告警,告警接收人為補數據的發起人。 說明
| |
順序 | 選擇按照業務日期正序或業務日期倒序進行補數據。 | |
調度資源組 | 指定運行補數據實例使用的資源組。
說明 請注意配置資源組網絡連通,否則任務可能運行失敗。若指定的資源組未綁定相關工作空間,則仍將使用原有周期任務的資源組。 | |
運行時間段 | 指定本次生成的補數據任務在什么時間執行。
| |
補數據任務校驗 | 校驗不通過時終止任務執行 | 指定本地生成的補數據任務在校驗不通過時的狀態。
說明 補數據任務將對基本情況和潛在風險項進行檢測,分析內容如下:
|
高級模式補數據
在高級模式中,您可以使用DAG圖的聚合功能及節點的類型、責任人等過濾條件,批量為節點之間不存在依賴關系的多個節點進行補數據。高級模式補數據步驟如下:
選擇需要補數據的節點。
在當前周期任務的DAG圖中,您可以結合DAG圖的聚合功能(區域1),按照不聚合、按所屬工作空間聚合、按責任人聚合或按優先級聚合等維度將節點劃分為組,直接勾選該節點組(區域2),快速添加目標類別的節點為補數據節點。DAG圖的聚合功能,詳情請參見附錄:DAG圖功能介紹。
您也可在周期任務界面,通過節點名稱、節點類型、責任人、調度資源組等篩選條件進行過濾(區域3),在左側任務列表中,勾選符合條件的周期任務為需要補數據的節點(區域4),單擊下方的添加,將目標周期任務添加至補數據任務中。
說明該方式是將整個目標周期任務添加至補數據任務中,因此系統會對該周期任務中的所有節點進行補數據。如果您希望對周期任務中的部分節點進行補數據,則可以單擊目標周期任務的名稱,進入DAG圖界面,選擇需要進行補數據的節點。
查看補數據節點。
補數據節點添加完成后,您可在區域5的補數據面板,查看已選擇的節點。同時,您還可執行如下管理操作:
單擊目標節點后的圖標,跳轉至該節點的DAG圖界面,可重新勾選該DAG圖中需要補數據的節點。
單擊目標節點后的圖標,在當前補數據任務中刪除該節點。
在區域5的補數據面板,單擊去配置,配置補數據任務的相關參數。參數說明如下。
參數
描述
補數據名稱
平臺自動生成,您可按需修改。
已選任務數
當前補數據任務中包含的節點個數。您可單擊修改,修改當前補數據任務包含的節點。
業務日期
指定所選任務需要進行補數據的業務日期,精確到天。
如需對該任務的多個不連續的時間段補數據,可單擊添加多段業務日期,配置多個時間段。
當業務日期晚于當前日期,可選擇立即運行定時時間大于此刻的補數據實例,后續當實際時間大于配置的業務日期時,平臺會立即運行該補數據實例。
例如,當前日期為
2024-03-12
,業務日期為2024-03-17
,則等實際日期為2024-03-18
(大于業務日期)時,補數據實例便會啟動運行。
說明在離線計算中,最常見的是今天處理昨天的數據,此處昨天就是業務日期。在補數據過程中,會根據您選擇的業務日期生成當時的任務實例,以便您可以回溯指定時間的數據。
建議補數據的時間不要太長,以免出現任務需要等待資源的情況。
并行
若對多個業務日期執行補數據時,可指定若干個分組并發執行本次補數據任務。取值如下:
是:平臺將按照指定的分組數對業務日期進行拆分,根據分組結果生成多個補數據批次并發執行。
否(默認值):按照業務日期順序串行執行,前一個補數據實例運行結束后下一個補數據實例才會運行。
說明小時、分鐘任務某天實例是否并發執行,與小時、分鐘任務本身是否設置自依賴有關。
并行數取值范圍為
2~10
組,多個實例并發執行的情況如下:若業務日期的跨度時間少于并行組數,則任務并發執行。
例如,業務日期為
1月11日~1月13日
,并行數為4組,則只會生成三個補數據實例(每個補數據實例對應一個業務日期),三個實例并發執行。若業務日期的跨度時間大于并行組數,則平臺根據業務日期順序兼有串行和并行執行任務。
例如,業務日期為
1月11日~1月13日
,并行數為2組,則會生成兩個補數據實例(其中一個補數據實例會包含兩個業務日期,這兩個業務日期對應的任務串行執行),兩個補數據實例并行執行。
補數據告警
設置此次補數據操作是否會觸發告警。
是(默認值):滿足觸發條件則產生告警。
否:此次補數據不會觸發告警。
觸發條件
設置告警觸發條件:
失敗或成功皆告警:無論補數據運行成功或失敗,均會產生告警。
成功告警:補數據成功時才會產生告警。
失敗告警(默認值):補數據失敗時才會產生告警。
說明僅當補數據告警選擇是時,需配置該參數。
告警方式
選擇通過短信與郵件、短信、郵件等方式接收告警,告警接收人為補數據的發起人。
說明僅當補數據告警選擇是時,需配置該參數。
單擊檢驗聯系方式,即可驗證報警接收人的手機號或郵箱是否已登記。若未登記,可參考查看和設置報警聯系人配置。
順序
選擇按照業務日期正序或業務日期倒序進行補數據。
調度資源組
指定運行補數據實例使用的資源組。
指定調度資源組:使用指定資源組執行補數據實例,避免補數據實例與周期實例搶占資源。
跟隨任務配置(默認值):使用周期任務原本配置的資源組執行補數據實例。
說明請注意配置資源組網絡連通,否則任務可能運行失敗。若指定的資源組未綁定相關工作空間,則仍將使用原有周期任務的資源組。
運行時間段
指定本次生成的補數據任務在什么時間執行。
指定時間段:可指定開始執行補數據實例的時間。
跟隨任務配置(默認值):正常為立即運行,若運行業務日期為今天或未來時間,且未勾選立即運行的情況下,將按照實例定時時間執行。
說明超過該時間段且處于未運行狀態的任務不會執行,超過該時間段但處于運行中狀態的任務會繼續執行。
管理補數據實例
補數據任務啟動后,會生成相應的補數據實例,您可進入運維中心,單擊左側導航欄的 ,查看補數據實例的基本信息及運行詳情,并進行終止運行、重跑等管理操作。
區域 | 描述 |
1 | 單擊展開搜索,可通過補數據名稱、運行狀態、節點類型等條件篩選需要查詢的實例,也可快速批量終止正在運行的補數據任務。 |
2 | 在該區域,您可以查看補數據實例的相關信息,主要包括:
在該區域,您可對補數據實例執行如下操作:
|
3 | 在該區域,可查看補數據實例所包含節點的相關信息,包括:
在該區域,可對節點任務執行如下操作:
|
4 | 您可以在區域3勾選多個目標節點任務,在本區域(區域4)單擊終止運行或重跑,即可批量終止運行或重新運行所選的節點任務。 |
實例狀態說明
狀態類型 | 狀態標識 |
運行成功狀態 | |
未運行狀態 | |
運行失敗狀態 | |
正在運行狀態 | |
等待狀態 | |
凍結狀態 |