數(shù)據(jù)質(zhì)量概述
數(shù)據(jù)質(zhì)量幫助您第一時間感知源端數(shù)據(jù)的變更與ETL(Extract Transformation Load)中產(chǎn)生的臟數(shù)據(jù),自動攔截問題任務,有效阻斷臟數(shù)據(jù)向下游蔓延。避免任務產(chǎn)出不符合預期的問題數(shù)據(jù),影響正常使用和業(yè)務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。
費用說明
數(shù)據(jù)質(zhì)量規(guī)則運行產(chǎn)生的費用由兩部分組成:
DataWorks相關收費
根據(jù)數(shù)據(jù)質(zhì)量規(guī)則實例數(shù)進行按量收費,詳情請參見:數(shù)據(jù)質(zhì)量計費說明。
非DataWorks收費
數(shù)據(jù)質(zhì)量規(guī)則校驗會產(chǎn)生校驗SQL并下推到引擎執(zhí)行,數(shù)據(jù)質(zhì)量規(guī)則運行將會產(chǎn)生引擎費用,各引擎計費細則請參考各引擎計費文檔。例如,假設您使用MaxCompute引擎按量付費模式時,數(shù)據(jù)質(zhì)量規(guī)則校驗將會產(chǎn)生MaxCompute引擎費用,此費用由MaxCompute引擎?zhèn)仁杖。辉贒ataWorks賬單中體現(xiàn)。
功能介紹
數(shù)據(jù)質(zhì)量支持對常見大數(shù)據(jù)存儲(MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)進行質(zhì)量校驗。從完整性、準確性、有效性、一致性、唯一性和及時性等多個維度,配置質(zhì)量監(jiān)控規(guī)則。并可以將質(zhì)量監(jiān)控規(guī)則與調(diào)度節(jié)點進行關聯(lián),當任務運行完成后便會觸發(fā)質(zhì)量規(guī)則校驗,幫助您第一時間感知問題數(shù)據(jù),按需設置規(guī)則的強弱來控制任務是否失敗退出,從而避免臟數(shù)據(jù)影響擴大,有效降低數(shù)據(jù)恢復處理的時間成本和費用成本。
數(shù)據(jù)質(zhì)量各模塊功能介紹如下:
名稱 | 描述 | |
數(shù)據(jù)質(zhì)量大盤為您展示當前工作空間下,需要重點關注的數(shù)據(jù)質(zhì)量總覽指標、實例運行后觸發(fā)的質(zhì)量規(guī)則校驗狀態(tài)的趨勢及分布情況、TOP質(zhì)量問題表及質(zhì)量問題責任人、質(zhì)量規(guī)則覆蓋保障情況等,幫助質(zhì)量負責人快速了解工作空間數(shù)據(jù)質(zhì)量整體情況,及時處理質(zhì)量問題提升數(shù)據(jù)質(zhì)量。 | ||
質(zhì)量資產(chǎn) | 展示已配置的所有質(zhì)量規(guī)則的列表。 | |
數(shù)據(jù)質(zhì)量支持自建規(guī)則模板庫,對通用的自定義監(jiān)控規(guī)則進行統(tǒng)一管理,形成自建的規(guī)則模板庫,幫助您提升規(guī)則配置的效率。 | ||
規(guī)則配置 | 數(shù)據(jù)質(zhì)量支持按表配置或按模板配置質(zhì)量監(jiān)控規(guī)則。 | |
質(zhì)量運維 | 質(zhì)量監(jiān)控列表頁可以查看本工作空間下創(chuàng)建的所有質(zhì)量監(jiān)控任務。 | |
展示質(zhì)量監(jiān)控任務運行時的規(guī)則校驗結(jié)果。質(zhì)量監(jiān)控任務運行后,您可以在運行記錄頁面查看詳情。 | ||
質(zhì)量分析 | 數(shù)據(jù)質(zhì)量支持用戶創(chuàng)建報告模板,自由添加規(guī)則配置和規(guī)則運行的各項指標。根據(jù)設置的統(tǒng)計周期、發(fā)送時間和訂閱信息,定時生成并發(fā)送報告。 |
注意事項
如下引擎類型支持的地域存在差異:
引擎類型
支持地域
E-MapReduce
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、德國(法蘭克福)、美國(硅谷)
Hologres
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、上海金融云、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、德國(法蘭克福)、美國(硅谷)、美國(弗吉尼亞)
AnalyticDB PostgreSQL
華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、東京(日本)
AnalyticDB MySQL
華南1(深圳)、新加坡、美國(硅谷)
CDH
華東2(上海)、華北2(北京)、華北3(張家口)、中國香港、德國(法蘭克福)
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH在進行數(shù)據(jù)質(zhì)量規(guī)則配置前,需要先進行元數(shù)據(jù)采集,詳情請參見元數(shù)據(jù)采集。
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH配置表數(shù)據(jù)質(zhì)量規(guī)則后,產(chǎn)出表數(shù)據(jù)的調(diào)度節(jié)點需要使用網(wǎng)絡已經(jīng)連通的資源組執(zhí)行才可以正常觸發(fā)數(shù)據(jù)質(zhì)量規(guī)則校驗。
一個表可以配置多個數(shù)據(jù)質(zhì)量規(guī)則。
使用場景
在離線數(shù)據(jù)校驗場景下,數(shù)據(jù)質(zhì)量通過表配置的分區(qū)表達式來匹配節(jié)點每天產(chǎn)出的表分區(qū),數(shù)據(jù)質(zhì)量規(guī)則關聯(lián)產(chǎn)出該表數(shù)據(jù)的調(diào)度節(jié)點,當任務運行完成便會觸發(fā)質(zhì)量規(guī)則校驗(空跑任務不會觸發(fā)質(zhì)量規(guī)則校驗),您可以設置規(guī)則的強弱來控制節(jié)點是否失敗退出,從而避免臟數(shù)據(jù)影響擴大,并支持通過報警配置第一時間接收報警信息并處理。
配置規(guī)則
創(chuàng)建規(guī)則:數(shù)據(jù)質(zhì)量支持您按表創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則,同時,也支持您通過內(nèi)置規(guī)則模板來快速為一批表批量創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則。詳情請參見:按表配置監(jiān)控規(guī)則、配置規(guī)則:按模板(批量)。
訂閱規(guī)則:規(guī)則創(chuàng)建完成后,您可以通過規(guī)則訂閱的方式接收數(shù)據(jù)質(zhì)量規(guī)則校驗報警信息,支持郵件通知、郵件和短信通知、釘釘群機器人、釘釘群機器人@ALL、飛書群機器人、企業(yè)微信機器人和自定義Webhook等方式進行報警。
說明僅DataWorks企業(yè)版版本支持使用自定義Webhook方式。
觸發(fā)規(guī)則校驗
在運維中心中,當表關聯(lián)的調(diào)度節(jié)點運行(執(zhí)行節(jié)點代碼邏輯)完成后,將會觸發(fā)數(shù)據(jù)質(zhì)量監(jiān)控,從而觸發(fā)質(zhì)量監(jiān)控中的規(guī)則校驗(將會產(chǎn)生一條校驗SQL在底層執(zhí)行)。DataWorks平臺將根據(jù)數(shù)據(jù)質(zhì)量規(guī)則的強弱和數(shù)據(jù)質(zhì)量規(guī)則校驗結(jié)果決定任務是否由于質(zhì)量規(guī)則校驗失敗而退出,并阻塞下游節(jié)點執(zhí)行,防止臟數(shù)據(jù)影響范圍進一步擴大。
查看校驗結(jié)果
您可以通過運維中心節(jié)點運行日志和數(shù)據(jù)質(zhì)量任務查詢頁面查看數(shù)據(jù)質(zhì)量校驗結(jié)果。
通過運維中心節(jié)點運行日志查看
查看實例狀態(tài)。當實例狀態(tài)為質(zhì)量監(jiān)控校驗失敗時,可能是代碼運行成功但節(jié)點產(chǎn)出的表數(shù)據(jù)不符合預期,數(shù)據(jù)質(zhì)量強規(guī)則校驗未通過導致任務失敗退出并阻塞下游實例運行。
打開實例運行日志中的DQC日志,查看數(shù)據(jù)質(zhì)量校驗結(jié)果。詳情請參見查看周期實例。
通過運行記錄界面查看。
在運行記錄界面,通過表或節(jié)點搜索數(shù)據(jù)質(zhì)量監(jiān)控的校驗詳情。詳情請參見:查看監(jiān)控任務。