數據質量幫助您及時感知源端數據的變更與ETL(Extract Transformation Load)中產生的臟數據,自動攔截問題任務,阻斷臟數據向下游蔓延。避免任務產出問題數據,影響正常使用和業務決策。本文示例配置表數據質量監控規則,保障產出的表數據符合預期,為您介紹數據質量的基本使用。
前提條件
根據數據開發:開發者文檔創建result_table
節點,及節點產出的result_table
表。
本文均以result_table
表來演示數據質量的功能,實際執行時,也可基于您使用的表執行相關操作。
背景信息
數據質量支持以表為維度,為某個表配置質量規則;或以規則模板為維度,批量為多個表配置某個質量規則。本文僅以配置單表的質量規則示例。
使用模板批量為多個表配置質量規則,詳情請參見配置規則:按模板(批量)。
更多數據質量功能介紹,詳情請參見數據質量概述。
進入數據質量
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
單擊左上角的圖標,選擇 。
操作流程
通過分區表達式匹配數據質量規則需校驗的目標表的分區。
根據業務需求,創建校驗表數據的質量規則。
運行創建的規則,測試驗證規則的正確性。
通過關聯調度節點,定義質量規則觸發的方式及時間。當調度節點執行后,將會觸發該節點關聯的數據質量校驗規則自動運行。
訂閱數據質量規則,訂閱后,您會第一時間收到校驗結果的異常報警并快速處理。
步驟一:配置分區表達式
數據質量通過分區表達式來確定需要進行質量校驗的表分區。您需要找到目標表,并為其配置所需分區表達式。
查找目標表并進入表規則配置頁面。
在左側導航欄單擊 。
通過引擎、表名稱等信息篩選,找到目標表。
單擊目標表操作列的配置監控規則。
本文示例進入
result_table
表的監控規則配置頁面,步驟如下圖。配置分區表達式。
通常,為保障周期調度產出的表數據符合預期,建議該分區表達式的取值與當天周期調度產出的表分區一致。
說明單表可多次執行添加操作,配置多個分區表達式,校驗多個分區數據。
在表規則配置頁面,單擊圖標。
在添加分區對話框輸入分區表達式,單擊計算。
您可查看分區表達式的計算結果是否符合預期,若不符合則請及時修正。
單擊確認,成功添加分區。
本文示例配置下圖的分區表達式,校驗
result_table
表當天執行產出的分區數據是否符合預期。
步驟二:創建質量規則
確定校驗的表分區后,需為其創建校驗該表分區數據的質量規則。您可直接使用數據質量提供的模板規則,也可自定義規則。DataWorks支持自定義規則強弱,控制規則產生的影響,當數據質量校驗不符合預期時,用于決定是否自動攔截問題任務、阻斷臟數據向下游蔓延。規則創建后默認為強規則,您可根據實際情況進行修改。
強規則:紅色異常報警并阻塞下游任務節點,橙色異常報警但不阻塞下游任務節點。
弱規則:紅色異常報警但不阻塞下游任務節點,橙色異常不報警也不阻塞下游任務節點。
單擊創建規則。
創建數據質量校驗規則。
在創建規則對話框,您可選擇創建模板規則或自定義規則:
模板規則:基于常用場景,提供了多種內置模板規則,您可直接使用。詳情請參見配置規則:按表(單表)。
自定義規則:如果模板規則不能滿足您對分區表達式中數據質量的監控需求,您可通過創建自定義規則來滿足個性化監控需求,詳情請參見配置規則:按表(單表)。
單擊批量添加,完成規則的創建。
創建的規則默認為強規則,您可根據需要修改規則的強弱。
本文示例,基于模板規則為result_table
表快速創建表行數大于0
的強校驗規則。
步驟三:試跑質量規則
為確保質量規則的配置符合預期,您可在規則創建完成后,試跑該規則。試跑時,將根據您選擇的調度時間、分區表達式、配置的質量校驗規則,確認當前試跑的分區是否符合預期。
在規則列表頁面單擊試跑。
配置試跑分區及調度時間,單擊試跑。
試跑結束后,單擊下方鏈接,查看試跑結果。
本文示例,試跑表級規則_2022年8月24日 11:00:58
規則并查看試跑結果。您可根據試跑結果處理異常問題。
步驟四:質量規則關聯調度節點
數據質量可通過關聯調度節點觸發執行質量校驗規則,即當調度節點調度執行時,其關聯的質量規則便會自動執行。
在規則列表頁面單擊關聯調度。
添加需要關聯的任務節點。
添加節點后,該節點運行時便會觸發執行當前表質量校驗規則。通常,建議表的質量校驗規則關聯產出該表數據的調度節點。
本文示例關聯產出result_table
表數據的result_table
調度節點。
步驟五:訂閱質量規則
數據質量為您提供監控報警功能,通過訂閱某表數據質量校驗規則,第一時間接收質量校驗異常結果并快速處理,保障數據安全、穩定、按時產出。
在規則列表頁面單擊訂閱管理。
配置報警消息的接收信息。
DataWorks支持您使用短信、郵件等多種方式接收質量校驗異常的報警信息。
本文示例配置通過郵件方式接收報警消息。
后續步驟
當產出目標表數據的任務啟動執行時,則會觸發其關聯的數據質量規則校驗。您可在實例詳情頁查看實例狀態,并單擊運行日志中的DQC,查看數據質量校驗過程。查看周期實例,詳情請參見查看周期實例。
本文示例查看result_table
的質量報警結果。