數據質量
數據質量幫助您第一時間感知源端數據的變更與ETL(Extract Transformation Load)中產生的臟數據,自動攔截問題任務,有效阻斷臟數據向下游蔓延。避免任務產出不符合預期的問題數據,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。
費用說明
數據質量規則運行產生的費用由兩部分組成:
DataWorks相關收費
根據數據質量規則實例數進行按量收費,詳情請參見:數據質量計費說明。
非DataWorks收費
數據質量規則校驗會產生校驗SQL并下推到引擎執行,數據質量規則運行將會產生引擎費用,各引擎計費細則請參考各引擎計費文檔。例如,假設您使用MaxCompute引擎按量付費模式時,數據質量規則校驗將會產生MaxCompute引擎費用,此費用由MaxCompute引擎側收取,不在DataWorks賬單中體現。
功能介紹
數據質量支持對常見大數據存儲(MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)進行質量校驗。從完整性、準確性、有效性、一致性、唯一性和及時性等多個維度,配置質量監控規則。并可以將質量監控規則與調度節點進行關聯,當任務運行完成后便會觸發質量規則校驗,幫助您第一時間感知問題數據,按需設置規則的強弱來控制任務是否失敗退出,從而避免臟數據影響擴大,有效降低數據恢復處理的時間成本和費用成本。
數據質量各模塊功能介紹如下:
名稱 | 描述 | |
數據質量大盤為您展示當前工作空間下,需要重點關注的數據質量總覽指標、實例運行后觸發的質量規則校驗狀態的趨勢及分布情況、TOP質量問題表及質量問題責任人、質量規則覆蓋保障情況等,幫助質量負責人快速了解工作空間數據質量整體情況,及時處理質量問題提升數據質量。 | ||
質量資產 | 展示已配置的所有質量規則的列表。 | |
數據質量支持自建規則模板庫,對通用的自定義監控規則進行統一管理,形成自建的規則模板庫,幫助您提升規則配置的效率。 | ||
規則配置 | 數據質量支持按表配置或按模板配置質量監控規則。 | |
質量運維 | 質量監控列表頁可以查看本工作空間下創建的所有質量監控任務。 | |
展示質量監控任務運行時的規則校驗結果。質量監控任務運行后,您可以在運行記錄頁面查看詳情。 | ||
質量分析 | 數據質量支持用戶創建報告模板,自由添加規則配置和規則運行的各項指標。根據設置的統計周期、發送時間和訂閱信息,定時生成并發送報告。 |
注意事項
如下引擎類型支持的地域存在差異:
引擎類型
支持地域
E-MapReduce
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、德國(法蘭克福)、美國(硅谷)
Hologres
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、上海金融云、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、德國(法蘭克福)、美國(硅谷)、美國(弗吉尼亞)
AnalyticDB PostgreSQL
華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、東京(日本)
AnalyticDB MySQL
華南1(深圳)、新加坡、美國(硅谷)
CDH
華東2(上海)、華北2(北京)、華北3(張家口)、中國香港、德國(法蘭克福)
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH在進行數據質量規則配置前,需要先進行元數據采集,詳情請參見元數據采集。
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH配置表數據質量規則后,產出表數據的調度節點需要使用網絡已經連通的資源組執行才可以正常觸發數據質量規則校驗。
一個表可以配置多個數據質量規則。
使用場景
在離線數據校驗場景下,數據質量通過表配置的分區表達式來匹配節點每天產出的表分區,數據質量規則關聯產出該表數據的調度節點,當任務運行完成便會觸發質量規則校驗(空跑任務不會觸發質量規則校驗),您可以設置規則的強弱來控制節點是否失敗退出,從而避免臟數據影響擴大,并支持通過報警配置第一時間接收報警信息并處理。
配置規則
創建規則:數據質量支持您按表創建數據質量規則,同時,也支持您通過內置規則模板來快速為一批表批量創建數據質量規則。詳情請參見:按表配置監控規則、配置規則:按模板(批量)。
訂閱規則:規則創建完成后,您可以通過規則訂閱的方式接收數據質量規則校驗報警信息,支持郵件通知、郵件和短信通知、釘釘群機器人、釘釘群機器人@ALL、飛書群機器人、企業微信機器人和自定義Webhook等方式進行報警。
說明僅DataWorks企業版支持使用自定義Webhook方式。
觸發規則校驗
在運維中心中,當表關聯的調度節點運行(執行節點代碼邏輯)完成后,將會觸發數據質量監控,從而觸發質量監控中的規則校驗(將會產生一條校驗SQL在底層執行)。DataWorks平臺將根據數據質量規則的強弱和數據質量規則校驗結果決定任務是否由于質量規則校驗失敗而退出,并阻塞下游節點執行,防止臟數據影響范圍進一步擴大。