日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

數據建模

本文介紹數據建模的相關問題。

  1. 邏輯表質量規則都支持哪些云計算資源?

  2. 邏輯表質量規則都包含哪些?

  3. 邏輯表數據質量的強規則和弱規則有什么區別?

邏輯表質量規則都支持哪些云計算資源?

目前包含MaxCompute、Hive、ApsaraDB for RDS、DataHub Service、PostgreSQL、AnalyticDB PostgreSQL、Kafka。

邏輯表質量規則都包含哪些?

主要包含表規則、字段規則和自定義SQL規則。

表規則說明

規則類型

說明

表行數

取當前分區的表行數。

存儲大小

取對應分區的物理存儲量,與期望值進行比較,只要符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

主鍵唯一

對應分區,表主鍵字段值去重后的count數是否等于分區記錄數,等于則規則通過,不等于則規則不通過。

多表記錄數波動率

源表對應分區的表行數,同目標表的表行數進行比較,計算波動率。再與期望閾值進行比較,只要符合規則則通過。 波動率計算公式=【(源表當前分區的表行數-對比指定分區的表行數)/源表當前分區的表行數】*100%。 比較方式默認為絕對值。

數據完整率

表分區所選字段值全部非空的count數與表分區總記錄數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

數據唯一性

表分區所選字段值去重后的count數與表分區總記錄數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

字段規則說明

配置項

說明

最大值

對應分區,該字段的最大值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

最小值

對應分區,該字段的最小值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

平均值

對應分區,該字段的平均值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

匯總值

對應分區,該字段的sum值與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

唯一值

對應分區,去重后的count數與一個期望固定數字進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

唯一率

對應分區,字段的唯一值個數與總行數的比率與一個固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

重復值

對應分區,總行數減去重后的個數,即字段重復值的個數。重復值個數與期望的固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

重復率

對應分區,重復值個數與總行數的比率與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

空值數量

對應分區,該字段的空值數與期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

空值率

對應分區,字段空值的個數與行總數的比率與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

離散值分組個數

對應分區,字段分組,各離散點count值與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

離散值狀態值

對應分區,字段分組,離散點總數與一個期望固定值進行比較,符合規則則通過。 比較方式包括:>、<=、>=、<=、=和!=。

字段值長度準確性校驗

對應分區,字段值長度與期望的固定值進行比較,全部符合規則則通過。 比較方式默認為<=。

字段類型準確性校驗

取表字段的字段類型元數據與期望的類型進行比較,符合規則則通過。

標準字典值校驗

對應分區,字段值與對應數據字典的值編碼進行比較,字段值全部存在于字典的值編碼中的,則規則通過。

自定義SQL規則

  • 單表自定義SQL:除了表和字段不支持的規則外的其他自定義SQL規則返回值和期望值做對比。

    說明

    Select結果僅支持返回一行一列的值。

  • 多表自定義SQL:邏輯表和其他邏輯表的自定義SQL規則返回值進行運算和期望值做對比。(比如:本表SQL執行輸出與關聯表SQL執行輸出進一步的計算邏輯支持${result_1}和$ {result_2}的四則運算,支持使用abs取絕對值的運算比如:(${result_1}+5*abs(${result_1}-${result_2}))/2)

邏輯表數據質量的強規則和弱規則有什么區別?

強規則:如實際結果不滿足規則,則該單項數據質量為較差。

弱規則:常規規則,如實際結果不滿足規則,則該單項數據質量為一般。