數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量幫助您第一時(shí)間感知源端數(shù)據(jù)的變更與ETL(Extract Transformation Load)中產(chǎn)生的臟數(shù)據(jù),自動(dòng)攔截問題任務(wù),有效阻斷臟數(shù)據(jù)向下游蔓延。避免任務(wù)產(chǎn)出不符合預(yù)期的問題數(shù)據(jù),影響正常使用和業(yè)務(wù)決策。同時(shí)也能顯著降低問題處理的時(shí)間成本,避免任務(wù)重新運(yùn)行帶來的資源費(fèi)用浪費(fèi)。
費(fèi)用說明
數(shù)據(jù)質(zhì)量規(guī)則運(yùn)行產(chǎn)生的費(fèi)用由兩部分組成:
DataWorks相關(guān)收費(fèi)
根據(jù)數(shù)據(jù)質(zhì)量規(guī)則實(shí)例數(shù)進(jìn)行按量收費(fèi),詳情請(qǐng)參見:數(shù)據(jù)質(zhì)量計(jì)費(fèi)說明。
非DataWorks收費(fèi)
數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn)會(huì)產(chǎn)生校驗(yàn)SQL并下推到引擎執(zhí)行,數(shù)據(jù)質(zhì)量規(guī)則運(yùn)行將會(huì)產(chǎn)生引擎費(fèi)用,各引擎計(jì)費(fèi)細(xì)則請(qǐng)參考各引擎計(jì)費(fèi)文檔。例如,假設(shè)您使用MaxCompute引擎按量付費(fèi)模式時(shí),數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn)將會(huì)產(chǎn)生MaxCompute引擎費(fèi)用,此費(fèi)用由MaxCompute引擎?zhèn)仁杖。辉贒ataWorks賬單中體現(xiàn)。
功能介紹
數(shù)據(jù)質(zhì)量支持對(duì)常見大數(shù)據(jù)存儲(chǔ)(MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)進(jìn)行質(zhì)量校驗(yàn)。從完整性、準(zhǔn)確性、有效性、一致性、唯一性和及時(shí)性等多個(gè)維度,配置質(zhì)量監(jiān)控規(guī)則。并可以將質(zhì)量監(jiān)控規(guī)則與調(diào)度節(jié)點(diǎn)進(jìn)行關(guān)聯(lián),當(dāng)任務(wù)運(yùn)行完成后便會(huì)觸發(fā)質(zhì)量規(guī)則校驗(yàn),幫助您第一時(shí)間感知問題數(shù)據(jù),按需設(shè)置規(guī)則的強(qiáng)弱來控制任務(wù)是否失敗退出,從而避免臟數(shù)據(jù)影響擴(kuò)大,有效降低數(shù)據(jù)恢復(fù)處理的時(shí)間成本和費(fèi)用成本。
數(shù)據(jù)質(zhì)量各模塊功能介紹如下:
名稱 | 描述 | |
數(shù)據(jù)質(zhì)量大盤為您展示當(dāng)前工作空間下,需要重點(diǎn)關(guān)注的數(shù)據(jù)質(zhì)量總覽指標(biāo)、實(shí)例運(yùn)行后觸發(fā)的質(zhì)量規(guī)則校驗(yàn)狀態(tài)的趨勢(shì)及分布情況、TOP質(zhì)量問題表及質(zhì)量問題責(zé)任人、質(zhì)量規(guī)則覆蓋保障情況等,幫助質(zhì)量負(fù)責(zé)人快速了解工作空間數(shù)據(jù)質(zhì)量整體情況,及時(shí)處理質(zhì)量問題提升數(shù)據(jù)質(zhì)量。 | ||
質(zhì)量資產(chǎn) | 展示已配置的所有質(zhì)量規(guī)則的列表。 | |
數(shù)據(jù)質(zhì)量支持自建規(guī)則模板庫,對(duì)通用的自定義監(jiān)控規(guī)則進(jìn)行統(tǒng)一管理,形成自建的規(guī)則模板庫,幫助您提升規(guī)則配置的效率。 | ||
規(guī)則配置 | 數(shù)據(jù)質(zhì)量支持按表配置或按模板配置質(zhì)量監(jiān)控規(guī)則。 | |
質(zhì)量運(yùn)維 | 質(zhì)量監(jiān)控列表頁可以查看本工作空間下創(chuàng)建的所有質(zhì)量監(jiān)控任務(wù)。 | |
展示質(zhì)量監(jiān)控任務(wù)運(yùn)行時(shí)的規(guī)則校驗(yàn)結(jié)果。質(zhì)量監(jiān)控任務(wù)運(yùn)行后,您可以在運(yùn)行記錄頁面查看詳情。 | ||
質(zhì)量分析 | 數(shù)據(jù)質(zhì)量支持用戶創(chuàng)建報(bào)告模板,自由添加規(guī)則配置和規(guī)則運(yùn)行的各項(xiàng)指標(biāo)。根據(jù)設(shè)置的統(tǒng)計(jì)周期、發(fā)送時(shí)間和訂閱信息,定時(shí)生成并發(fā)送報(bào)告。 |
注意事項(xiàng)
如下引擎類型支持的地域存在差異:
引擎類型
支持地域
E-MapReduce
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國(guó)香港、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達(dá))、德國(guó)(法蘭克福)、美國(guó)(硅谷)
Hologres
華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國(guó)香港、上海金融云、東京(日本)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達(dá))、德國(guó)(法蘭克福)、美國(guó)(硅谷)、美國(guó)(弗吉尼亞)
AnalyticDB PostgreSQL
華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、東京(日本)
AnalyticDB MySQL
華南1(深圳)、新加坡、美國(guó)(硅谷)
CDH
華東2(上海)、華北2(北京)、華北3(張家口)、中國(guó)香港、德國(guó)(法蘭克福)
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH在進(jìn)行數(shù)據(jù)質(zhì)量規(guī)則配置前,需要先進(jìn)行元數(shù)據(jù)采集,詳情請(qǐng)參見元數(shù)據(jù)采集。
E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH配置表數(shù)據(jù)質(zhì)量規(guī)則后,產(chǎn)出表數(shù)據(jù)的調(diào)度節(jié)點(diǎn)需要使用網(wǎng)絡(luò)已經(jīng)連通的資源組執(zhí)行才可以正常觸發(fā)數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn)。
一個(gè)表可以配置多個(gè)數(shù)據(jù)質(zhì)量規(guī)則。
使用場(chǎng)景
在離線數(shù)據(jù)校驗(yàn)場(chǎng)景下,數(shù)據(jù)質(zhì)量通過表配置的分區(qū)表達(dá)式來匹配節(jié)點(diǎn)每天產(chǎn)出的表分區(qū),數(shù)據(jù)質(zhì)量規(guī)則關(guān)聯(lián)產(chǎn)出該表數(shù)據(jù)的調(diào)度節(jié)點(diǎn),當(dāng)任務(wù)運(yùn)行完成便會(huì)觸發(fā)質(zhì)量規(guī)則校驗(yàn)(空跑任務(wù)不會(huì)觸發(fā)質(zhì)量規(guī)則校驗(yàn)),您可以設(shè)置規(guī)則的強(qiáng)弱來控制節(jié)點(diǎn)是否失敗退出,從而避免臟數(shù)據(jù)影響擴(kuò)大,并支持通過報(bào)警配置第一時(shí)間接收?qǐng)?bào)警信息并處理。
配置規(guī)則
創(chuàng)建規(guī)則:數(shù)據(jù)質(zhì)量支持您按表創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則,同時(shí),也支持您通過內(nèi)置規(guī)則模板來快速為一批表批量創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則。詳情請(qǐng)參見:按表配置監(jiān)控規(guī)則、配置規(guī)則:按模板(批量)。
訂閱規(guī)則:規(guī)則創(chuàng)建完成后,您可以通過規(guī)則訂閱的方式接收數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn)報(bào)警信息,支持郵件通知、郵件和短信通知、釘釘群機(jī)器人、釘釘群機(jī)器人@ALL、飛書群機(jī)器人、企業(yè)微信機(jī)器人和自定義Webhook等方式進(jìn)行報(bào)警。
說明僅DataWorks企業(yè)版支持使用自定義Webhook方式。
觸發(fā)規(guī)則校驗(yàn)
在運(yùn)維中心中,當(dāng)表關(guān)聯(lián)的調(diào)度節(jié)點(diǎn)運(yùn)行(執(zhí)行節(jié)點(diǎn)代碼邏輯)完成后,將會(huì)觸發(fā)數(shù)據(jù)質(zhì)量監(jiān)控,從而觸發(fā)質(zhì)量監(jiān)控中的規(guī)則校驗(yàn)(將會(huì)產(chǎn)生一條校驗(yàn)SQL在底層執(zhí)行)。DataWorks平臺(tái)將根據(jù)數(shù)據(jù)質(zhì)量規(guī)則的強(qiáng)弱和數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn)結(jié)果決定任務(wù)是否由于質(zhì)量規(guī)則校驗(yàn)失敗而退出,并阻塞下游節(jié)點(diǎn)執(zhí)行,防止臟數(shù)據(jù)影響范圍進(jìn)一步擴(kuò)大。
查看校驗(yàn)結(jié)果
您可以通過運(yùn)維中心節(jié)點(diǎn)運(yùn)行日志和數(shù)據(jù)質(zhì)量任務(wù)查詢頁面查看數(shù)據(jù)質(zhì)量校驗(yàn)結(jié)果。
通過運(yùn)維中心節(jié)點(diǎn)運(yùn)行日志查看
查看實(shí)例狀態(tài)。當(dāng)實(shí)例狀態(tài)為質(zhì)量監(jiān)控校驗(yàn)失敗時(shí),可能是代碼運(yùn)行成功但節(jié)點(diǎn)產(chǎn)出的表數(shù)據(jù)不符合預(yù)期,數(shù)據(jù)質(zhì)量強(qiáng)規(guī)則校驗(yàn)未通過導(dǎo)致任務(wù)失敗退出并阻塞下游實(shí)例運(yùn)行。
打開實(shí)例運(yùn)行日志中的DQC日志,查看數(shù)據(jù)質(zhì)量校驗(yàn)結(jié)果。詳情請(qǐng)參見查看周期實(shí)例。
通過運(yùn)行記錄界面查看。
在運(yùn)行記錄界面,通過表或節(jié)點(diǎn)搜索數(shù)據(jù)質(zhì)量監(jiān)控的校驗(yàn)詳情。詳情請(qǐng)參見:查看監(jiān)控任務(wù)。