數據質量支持您保留數據質量監控過程中從數據表中發現的非預期數據,幫助您快速排查、定位問題,提升數據質量。本文為您介紹如何管理數據質量監控過程中從數據表中發現的非預期數據。
背景信息
問題數據表
數據質量支持在部分規則校驗不通過的情況下,系統自動創建問題數據表存儲質量規則校驗過程中發現的問題數據。
問題數據表名生成規則:
{監控數據表原表名}_dirtydata_dw_system_dqc
。問題數據表所屬空間:根據當前表所處環境決定。如原始表為
dev_project.table1
,則問題數據表將同樣保存在dev_project
下。問題數據表責任人:數據表原表的責任人。
問題數據保留時長:問題數據默認保留15天,即該問題數據表生命周期為15天,若滿足MaxCompute表的生命周期回收策略,問題數據將會刪除。關于MaxCompute表生命周期定義詳情請參見生命周期。
問題數據表分區結構:
分區級別
分區字段名
描述
一級分區
dqc_task_run_dt
當前問題數據的采集時間,即數據質量規則運行時間(格式為yyyymmdd)。
二級分區
dqc_task_id
當前問題數據采集對應的DQC規則實例ID。
說明DQC規則執行將產生DQC實例。
支持保留問題數據的規則列表與問題數據口徑
目前支持保留問題數據的監控規則,及各規則問題數據的定義,詳情請參見:附錄:支持保留問題數據的規則列表與問題數據口徑。
注意事項
目前僅MaxCompute表支持配置保留問題數據功能。
目前僅部分數據質量監控規則支持配置保留問題數據功能,支持保存問題數據的規則,詳情請參見:附錄:支持保留問題數據的規則列表與問題數據口徑。
問題數據采集最終將基于您的規則生成數據采集SQL,并在MaxCompute引擎側執行,此過程將產生MaxCompute計算引擎費用。
問題數據采集結果將存儲于MaxCompute臨時表中,此過程將產生MaxCompute計算引擎存儲費用。
保留問題數據配置入口
您可在按表配置數據質量監控規則,添加模板規則時,在部分字段級規則配置入口,開啟問題數據保留配置。開啟問題數據保留配置后,當該數據質量規則校驗不通過時,系統會將異常數據保留至自動生成的問題數據表中。按表配置數據質量監控規則詳情請參見:配置規則:按表(單表)。
目前僅部分規則,在規則校驗不通過時支持保留問題數據,支持的規則列表,詳情請參見:附錄:支持保留問題數據的規則列表與問題數據口徑。
查看問題數據
您可以進入
頁面,找到質量結果校驗異常或失敗的運行記錄,單擊操作列的詳情,在質量監控運行詳情頁面中,單擊問題數據處理頁簽。若預覽問題數據無權限或通過命令查詢問題數據表無權限,請參考MaxCompute數據安全訪問控制說明,前往安全中心申請該表查詢權限,操作詳情請參見:MaxCompute數據訪問權限控制。
查看問題數據采集日志
您可以通過以下入口查看問題數據采集日志,包括采集問題數據的SQL代碼及執行過程。當問題數據采集過程中出現錯誤時,幫助您快速排查、定位問題。
方式一:通過數據質量模塊查看。
您可在查看質量監控執行詳情。
頁面,通過查看目標表數據質量監控規則的原始日志,查看問題數據采集過程。詳情請參見:方式二:通過調度任務列表查看。
當數據質量監控規則關聯調度節點后,您可進入調度節點的運行詳情頁面,在智能診斷。
面板,單擊目標規則操作列的查看詳情,查看問題數據采集過程。詳情請參見:
附錄:支持保留問題數據的規則列表與問題數據口徑
系統模板
校驗類型
校驗規則
規則描述
問題數據口徑
唯一值
唯一值個數,固定值。
去重后的count數與一個期望數字進行比較,即固定值校檢。
唯一值個數校驗不通過時:
當所有數據都唯一,系統會生成問題數據表,但表中不會存放問題數據。
若存在數據不唯一,系統生成的問題數據表會保留該字段的重復數據,即重復的數據就是問題數據。
唯一值個數/總行數。
唯一值個數與總行數的比率與一個固定值進行比較。
空值
空值個數,固定值。
取該字段的空值數與固定值進行比較。
說明是否為空值,是通過轉換為SQL的is null進行判斷。
系統生成的問題數據表會保留字段值為空的問題數據,即所有空值均為問題數據。
空值個數/總行數,固定值。
空值的個數與行總數的比率與一個固定值進行比較。
說明該固定值是一個小數。
重復值
重復值個數/總行數,固定值。
重復值個數與總行數的比率與一個固定值進行比較。
系統生成的問題數據表會保留該字段的重復數據,即所有重復值均為問題數據。
重復值個數,固定值。
總行數減去重后的個數,即字段重復值的個數。重復值個數與固定值進行比較。
自定義SQL
開啟保留問題數據后,將在自定義SQL的質量規則執行完成,且出現規則執行告警后,保存質量規則的問題數據。