您可使用數據管理DMS的數據質量功能來自定義表或列維度的數據質量規則,并結合任務編排的稽核任務自動檢查數據質量,保證數據的一致性、唯一性、充分性等,從而提升二次數據分析與開發的質量。
前提條件
背景信息
越來越多的數據需要進行二次數據分析與開發,但這些數據往往來源各異、結構多樣、數據量大且相互依賴,在這樣的情況下,保障數據正確、符合預期,提高數據質量顯得尤為重要。例如,將獲取到的數據投入二次數據分析前,先檢驗數據質量是否符合預期,以確保數據分析任務順利進行。
名詞解釋
數據質量規則:為保障數據符合某些預期,對表或列設置的規則。例如,表的行數需要為固定值,列的最大值為100等。
稽核任務:用于監測與校驗數據是否符合目標數據質量規則。設置質量規則和調度周期后,自動檢查數據質量并生成報告。
操作步驟
- 登錄數據管理DMS 5.0。
進入表詳情頁面。您可以選擇以下任意一種方式進入表詳情。
通過SQL Console控制臺進入。
在頂部菜單欄中,選擇
。在請先選擇數據庫對話框中,搜索并選擇目標數據庫,單擊確認。
在右上角的擴展功能區域,單擊表列表。
從操作列中,選擇
,進入表詳情頁面。
通過搜索進入。
單擊首頁頁簽,在頁面中間的搜索框中,輸入目標表名稱。
選擇表標簽,單擊目標表最右側的詳情按鈕,進入表詳情頁面。
單擊數據質量頁簽。
單擊創建規則,并在右側彈出的面板中,配置參數。
配置項
說明
示例值
規則名稱
定義規則的名稱。
列的最大值為100
規則類型
選擇規則的類型,支持的選項:
表規則:創建表級別的規則,例如檢驗表的行數是否符合預期。
列規則:創建列級別的規則,例如檢驗列中空值的個數。
列規則
規則模版
選擇系統內置規則模版,更多信息,請參見數據質量規則模板。
列的最大值
列名
選擇規則所應用的目標列名。
該參數僅在規則類型為列規則時顯示。
columns_test
比較方式
選擇比較方式,實際值將與期望值進行比較。
支持大于、大于等于、等于、小于等于、小于、不等于。
小于等于
期望值
輸入期望的目標值。
100
單擊確定。
數據質量規則創建成功后,默認狀態為已啟用。
說明您還可以在目標規則模板的操作列,執行以下操作:
單擊禁用,禁用目標規則模板。禁用后,該規則模板將無法新建稽核任務。
若該規則模板已應用在稽核任務中,會禁用失敗,請刪除目標稽核任務后重試。
選擇
,編輯數據質量規則。選擇
,查看規則的歷史版本。
在目標規則模板的操作列,選擇 。
系統自動跳轉至任務編排頁面,在任務編排中配置稽核任務節點,并發布該任務流。
說明更多信息,請參見概述。
設置任務流的調度周期并發布后,系統會自動根據調度周期和數據質量規則對數據進行檢測。
數據質量規則模板
規則類型 | 規則模版 |
表規則 | 表的行數(固定值):檢驗當前表的行數是否滿足預期。例如配置表的行數小于10萬行。 |
列規則 |
|