為確保任務運行無誤,當您在DataStudio中完成任務開發,并發布至生產環境后,您可以進入運維中心管理離線同步任務、監控任務運行狀態、修改同步資源組和查看任務運行日志等。本文列舉離線同步任務的常見運維操作。
前提條件
已完成離線同步任務的創建、運行、發布。詳情請參見:通過向導模式配置離線同步任務、通過腳本模式配置離線同步任務。
使用說明
離線同步任務的運維操作與其他離線調度任務操作一致,本文僅以離線同步典型運維操作為例進行說明,更多關于離線調度任務的運維操作,詳情請參見:周期任務基本運維操作。
為確保周期調度的離線同步任務運行無誤,請在任務發布完成后,前往
界面查看生產環境任務配置(任務代碼,任務使用的調度資源組及數據集成任務執行資源組)是否符合預期。DataWorks的離線同步任務通過調度資源組將其下發到數據集成任務執行資源組上執行,所以離線同步任務除了涉及數據集成任務執行資源組外,還會占用調度資源組資源。如果使用了獨享調度資源組,將會產生調度實例費用。您可通過文檔對該機制進行了解,詳情請參見DataWorks資源組概述。
標準模式工作空間下,存在數據源隔離機制。
任務發布至生產調度系統前,默認訪問任務配置所用數據源對應的開發環境指定的數據庫或數據倉庫。
任務發布至生產調度系統后,默認訪問任務配置所用數據源對應的生產環境指定的數據庫或數據倉庫。
關于數據源開發生產隔離機制,詳情請參見:數據源開發和生產環境隔離。
任務調度與管理
離線同步依托DataWorks強大的調度能力,為您實現離線任務的周期性自動調度執行,同時,可以結合DataWorks調度參數,實現增量數據和全量數據寫入到目標表對應分區,離線同步任務的運維操作與其他離線調度任務操作一致,支持手動觸發執行與自動調度執行。
操作 | 說明 |
運行離線同步任務 | 任務發布至生產環境后,您可以進入 界面查看已發布的任務,調度系統會按照調度配置自動運行任務,同時,還支持您手動觸發任務執行。 |
暫停離線同步任務調度執行 | 在周期任務界面,您可以對單個任務執行暫停(凍結)操作,使周期調度任務在一段時間內停止調度運行,并且阻塞其下游節點執行。 說明 周期任務運行將生成實例,如果某個實例及其下游實例不需要執行,您可以凍結該實例。 |
恢復離線同步任務調度執行 | 在周期任務界面,您可以對凍結狀態的任務執行恢復(解凍)操作,解凍后的任務將會正常調度運行。 說明 凍結狀態的周期任務運行將生成凍結狀態的實例,若凍結的實例及其下游實例需要運行,您可以解凍該實例。 |
同步歷史數據
DataWorks的調度參數結合補數據功能,可實現基于一套任務配置,批量將歷史數據同步至目標數據庫或數據倉庫指定表或表指定分區。若您的任務配置為增量同步,且需要同步歷史數據至目標表對應分區中,您可以使用補數據功能,調度參數將根據補數據配置的業務日期自動替換為具體的值,關于補數據功能使用,請參見執行補數據并查看補數據實例(新版)。
任務狀態監控
您可以進入智能監控概述。
配置監控規則,監控任務的運行狀態。包括完成、未完成、出錯、超時等狀態。詳情請參見:資源組運維
資源組監控:您可以在運維中心監控任務運行所用資源組的使用情況。詳情請參見資源運維。
資源組切換:您可以通過如下方式切換任務使用的資源組。
說明修改資源組前,請確保待切換的資源組與數據源網絡已經連通,避免由于資源組與數據源網絡不通導致任務執行失敗。
操作環境
支持的切換操作
界面入口
切換生產環境資源組
批量切換
進入
界面設置。勾選需要修改資源組的任務,單擊底部菜單欄的修改數據集成資源組,即可批量修改。
切換開發環境資源組
說明開發環境切換資源組后需要將任務重新提交發布至生產環境。
單個任務切換
批量切換
進入DataStudio頁面設置。
單個任務切換
進入目標節點的編輯頁面,在右側導航欄的數據集成資源組配置中即可修改。
批量切換
單擊圖標,勾選需要修改資源組的任務,單擊底部菜單欄的修改數據集成資源組,即可批量修改。
表數據質量監控
數據集成部分目標端數據源支持配置產出表的數據質量監控,您可以進入數據質量規則頁面,對數據同步寫入的目標表配置數據質量校驗規則。對于配置了數據質量監控規則的表,當表關聯的調度節點運行(執行節點代碼邏輯)完成后,將會觸發數據質量校驗。DataWorks平臺將會根據數據質量規則強弱和數據質量規則校驗結果決定任務是否由于質量規則校驗失敗退出,并阻塞下游節點執行,防止臟數據影響范圍進一步擴大。數據集成目標端數據源是否支持數據質量監控,及數據質量監控的使用詳情請參見數據質量概述。
在離線同步任務產出表配置數據質量規則的情況下,請注意任務所使用的調度資源組與目標數據源的網絡問題。
查看離線任務運行日志
進入運維中心,待周期實例、補數據實例、測試實例執行完成后,您可以在實例DAG面板查看任務運行日志。詳情請參見:附錄:DAG圖功能介紹。
若您需要了解日志執行過程中的相關參數請參見:離線同步日志分析。
查看離線數據大屏
您還可以在查看運維大屏。
頁面查看離線同步任務的運行狀態分布、數據同步進度、同步數據量統計、同步任務執行詳情(可基于來源端與目標端數據源,以及任務是否產生公網等條件過濾目標任務)等運行指標信息。詳情請參見:使用Logview查看任務運行信息
該功能目前在灰度邀測中,如需使用,請進入DataWorks交流釘釘群聯系值班人員處理。
數據集成LogView是在數據集成同步任務中進行埋點采集、分析處理、可視化展現等更加細粒度展示分析同步任務過程的同步速率,日志等信息。
在運維中心,找到離線任務的運行實例,單擊運行診斷。
在智能診斷頁面,單擊數據集成頁簽。
參數
描述
日志
在日志頁面下,可以查看數據集成同步任務的詳細日志。
進度
在進度頁面下,可以查看數據集成同步任務的詳細進度信息。包括同步條數、同步字節數、同步條數速率、同步字節數速率。
您還可以在該頁面執行如下操作:
您可以通過時間篩選框,篩選某段時間內任務的同步信息。
說明時間篩選最多支持查看15天內的詳細信息。
在進程列表右側,單擊圖標,可以選擇展現更多的列信息。
在進程列表中,可以單擊具體的內容,查看某個指標的曲線變化。
實例瀏覽
如果該實例是周期實例,您還可以在實例瀏覽頁面下,查看該實例下不同周期各維度的對比詳情。
您可以在任務列表中查看該任務的狀態以及對應的實例ID,單擊實例ID可以查看任務詳情。
您還可以在柱狀圖中對比不同實例之間的同步速率、同步條數、等待時間、同步時長的差異。