本文介紹數據建模的相關問題。
邏輯表質量規則都支持哪些云計算資源?
目前包含MaxCompute、Hive、ApsaraDB for RDS、DataHub Service、PostgreSQL、AnalyticDB PostgreSQL、Kafka。
邏輯表質量規則都包含哪些?
主要包含表規則、字段規則和自定義SQL規則。
表規則說明:
規則類型 | 說明 |
---|---|
表行數 | 取當前分區的表行數。 |
存儲大小 | 取對應分區的物理存儲量,與期望值進行比較,只要符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
主鍵唯一 | 對應分區,表主鍵字段值去重后的count數是否等于分區記錄數,等于則規則通過,不等于則規則不通過。 |
多表記錄數波動率 | 源表對應分區的表行數,同目標表的表行數進行比較,計算波動率。再與期望閾值進行比較,只要符合規則則通過。 波動率計算公式=【(源表當前分區的表行數-對比指定分區的表行數)/源表當前分區的表行數】*100%。 比較方式默認為絕對值。 |
數據完整率 | 表分區所選字段值全部非空的count數與表分區總記錄數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
數據唯一性 | 表分區所選字段值去重后的count數與表分區總記錄數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
字段規則說明:
配置項 | 說明 |
---|---|
最大值 | 對應分區,該字段的最大值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
最小值 | 對應分區,該字段的最小值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
平均值 | 對應分區,該字段的平均值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
匯總值 | 對應分區,該字段的sum值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
唯一值 | 對應分區,去重后的count數與一個期望固定數字進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
唯一率 | 對應分區,字段的唯一值個數與總行數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
重復值 | 對應分區,總行數減去重后的個數,即字段重復值的個數。重復值個數與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
重復率 | 對應分區,重復值個數與總行數的比率與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
空值數量 | 對應分區,該字段的空值數與期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
空值率 | 對應分區,字段空值的個數與行總數的比率與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
離散值分組個數 | 對應分區,字段分組,各離散點count值與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
離散值狀態值 | 對應分區,字段分組,離散點總數與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。 |
字段值長度準確性校驗 | 對應分區,字段值長度與期望的固定值進行比較,全部符合規則則通過。 比較方式默認為<=。 |
字段類型準確性校驗 | 取表字段的字段類型元數據與期望的類型進行比較,符合規則則通過。 |
標準字典值校驗 | 對應分區,字段值與對應數據字典的值編碼進行比較,字段值全部存在于字典的值編碼中的,則規則通過。 |
自定義SQL規則:
單表自定義SQL:除了表和字段不支持的規則外的其他自定義SQL規則返回值和期望值做對比。
說明Select結果僅支持返回一行一列的值。
多表自定義SQL:邏輯表和其他邏輯表的自定義SQL規則返回值進行運算和期望值做對比。(比如:本表SQL執行輸出與關聯表SQL執行輸出進一步的計算邏輯支持${result_1}和$ {result_2}的四則運算,支持使用abs取絕對值的運算比如:(${result_1}+5*abs(${result_1}-${result_2}))/2)
邏輯表數據質量的強規則和弱規則有什么區別?
強規則:如實際結果不滿足規則,則該單項數據質量為較差。
弱規則:常規規則,如實際結果不滿足規則,則該單項數據質量為一般。