日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

配置規則:按表(單表)

數據質量支持按照數據表配置質量監控規則,用來監控表數據是否符合要求,自動攔截問題任務,阻斷臟數據向下游蔓延,保障產出的表數據符合預期。規則配置完成后,您可先試跑該規則,確保質量規則的配置符合預期。同時,還可對質量規則執行訂閱、復制、查看分區操作日志、查看上一次校驗結果等管理操作。本文為您介紹如何配置表的質量監控規則并進行相關管理操作。

背景信息

數據質量監控規則包括基于模板創建的模板規則,及可?定義SQL邏輯的自定義規則。其中:

  • 模板規則:可通過DataWorks提供的43種內置規則創建,也可通過您自行維護的規則模板(即您可將常用的自定義規則固化為規則模板,便于后續快速復用)創建。

  • 自定義規則:若模板規則無法滿足您對分區表達式中數據質量的監控需求,則可使用自定義規則。

通常,數據表的內容較多且繁雜,為避免全表掃描,兩類規則均是基于分區表達式創建,用于監控指定分區的表數據情況。因此,創建規則前,您需先創建分區表達式。規則創建后,您還可根據需要執行相關規則管理操作,詳情請參見管理規則

前提條件

已采集引擎元數據。質量規則需基于引擎數據表進行配置,并作用于對應的表數據,因此,配置質量監控規則前,您需先采集元數據。詳情請參見元數據采集。

使用限制

  • 當前僅支持手動配置規則,不支持自動落標規則。

  • 當前僅支持為MaxCompute、E-MapReduce(簡稱EMR)、Hologres、AnalyticDB for PostgreSQL、CDH等數據源配置質量監控規則。并且,規則配置后,產出表數據的調度節點需要使用網絡已連通的獨享調度資源組進行調度,才可正常觸發數據質量規則校驗。獨享調度資源組的相關配置,詳情請參見新增和使用獨享調度資源組。

  • 動態閾值類規則需要有21天采樣記錄,若少于21天,動態閾值類規則會校驗異常。若無21天采樣記錄,您可在配置了動態閾值類規則且規則關聯調度任務后,通過補數據功能補齊21天采樣記錄。

進入按表配置監控規則頁面

  1. 進入數據質量頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據建模與開發 > 數據質量,在下拉框中選擇對應工作空間后單擊進入數據質量。

  2. 進入按表配置監控規則。

    在左側導航欄,單擊規則管理 > 按表配置,進入按表配置規則頁面。

    1. 左側數據源列表為您展示當前工作空間下所有在數據開發中綁定的數據源,您可以選擇表所在數據源。

    2. 根據引擎、表名等條件進行篩選,單擊目標表后監控配置,進入該表的規則配置界面。

創建分區表達式

通常,數據表的內容較多較雜,為避免全表掃描,數據質量基于分區表達式來配置質量監控規則,用于監控指定分區的表數據情況。配置規則前,您需在表的規則配置界面,按照如下步驟創建分區表達式。

image

  • 若規則監控的對象為非分區表,則可配置分區表達式為NOTAPARTITIONTABLE。

  • 若規則監控的對象為分區表,則可配置分區表達式為業務日期格式的分區表達式。例如,dt=$[yyyymmdd]

不同類型分區表達式的格式及說明如下。

分區表達式類型

分區表達式格式

說明

一級分區表達式

分區名=分區值

分區值可以是固定值,也可以是內置參數表達式。

多級分區表達式

1級分區名=分區值/2級分區名=分區值/N級分區名=分區值

分區值可以是固定值,也可以是內置參數表達式。參數必須使用中括號表示,例如,$[yyyymmdd-N]。分區表必須配置到最后一級分區。

DataWorks為您提供了部分內置的業務日期格式分區表達式,可直接使用。若內置表達式無法滿足您的需要,則可根據需要輸入自定義表達式。更多時間業務日期分區表達式,詳情請參見調度參數支持的格式。內置的業務日期格式分區表達式如下表。

說明

數據質量規則中,分區表達式不支持使用大括號相關格式。例如,${yyyymmdd-1}。

分區表達式

描述

dt=$[yyyymmdd]

表示獲取定時時間。

dt=$[yyyymmdd-1]

表示獲取業務日期。

dt=$[yyyymmddhh24miss]

表示獲取定時時間。精確到秒。

dt=$[yyyymmddhh24miss-1/24]

表示獲取定時時間的前一小時。精確到秒。

dt=$[yyyymmdd]000000

表示獲取整點定時時間。

dt=$[yyyymmdd-7]

表示獲取一周前。精確到天。

dt=$[hh24miss-1/24]

表示獲取一小時前。

dt=$[hh24miss-30/24/60]

表示獲取半小時前。

dt=$[add_months(yyyymmdd,-1)]

表示獲取上個月今天的日期。精確到天。

NOTAPARTITIONTABLE

非分區表可選擇該分區表達式。

配置分區表達式后,單擊計算,數據質量會以當前時間作為調度時間,計算出分區表達式的實際結果,用來驗證分區表達式是否正確。表達式創建完成后,您可基于該表達式創建模板規則創建自定義規則

說明

若您有不需要的分區表達式,可在分區表達式列表將其刪除。如果該分區表達式已經配置有質量監控規則,刪除時會同步刪除該表達式下的所有規則。請謹慎操作。

創建模板規則

創建模板規則分為添加監控規則快捷添加。

  • 添加監控規則:提供細粒度的數據監控,可根據需要配置規則的強弱、閾值、比較方式等多種監控參數。若需細粒度的監控數據,可使用該方式。

  • 快捷添加:提供粗粒度的表和字段級常用規則。若需快速體驗質量監控規則功能,或對數據的監控粒度較粗,可使用該方式。

image.png

添加監控規則

該方式可基于內置模板或規則模板庫創建監控規則:

內置模板:系統提供,不可更改,共含有43種表級和字段級的模板規則供您使用。

規則模板庫:個人維護,可按需更改,是將您創建的使用較多的自定義規則固化為規則模板,便于后續直接使用。

本文以使用內置模板為例,為您介紹添加監控規則的主要參數配置。

參數

描述

規則名稱

自定義的規則名稱。

強弱

設置規則的強弱程度,不同程度對下游任務的影響不同。

  • 強規則:紅色異常報警并阻塞下游任務節點,橙色異常報警但不阻塞下游任務節點。

  • 弱規則:紅色異常報警不阻塞下游任務節點,橙色異常不報警也不阻塞下游任務節點。

動態閾值

根據業務需求,選擇是否開啟動態閾值。 開啟后,無需手動配置波動閾值或期望值,系統會根據智能算法,自動判斷合理閾值。若發現數據異常,立即觸發報警或阻塞。

重要
  • 您需購買DataWorks企業版及以上版本,才可使用動態閾值功能。購買或升級DataWorks,詳情請參見購買指引

  • 動態閾值類規則需要有21天采樣記錄,若少于21天,動態閾值類規則會校驗異常。若無21天采樣記錄,您可在配置了動態閾值類規則且規則關聯調度任務后,通過補數據功能補齊21天采樣記錄。

規則來源

包括內置模板規則模板庫。

  • 內置模板:系統提供,不可更改,共含有43種表級和字段級的模板規則供您使用。詳情請參見查看內置規則模板。

  • 規則模板庫:個人維護,可按需更改,是將您創建的使用較多的自定義規則固化為規則模板,便于后續直接使用。詳情請參見創建并管理自定義規則模板

說明

您需購買DataWorks企業版及以上版本,才可以選擇規則模板庫。購買或升級DataWorks,詳情請參見購買指引

規則字段

包括表級規則和字段級規則,字段級規則包括數值型和非數值型。

規則模板

數據質量為您提供43種內置表級別、字段級別的監控模板可直接選擇。詳情請參見查看內置規則模板

說明

平均值、匯總值、最小值和最大值僅對數值型字段生效。

比較方式

不同規則模板,可選擇的比較方式不同。包括絕對值、上升下降、大于、等于等多種方式,具體請以實際界面為準。

  • 數值型模板通常與固定值(即期望值)進行比較,故多采用大于、等于等比較方式。該類比較方式需設置期望值。

  • 波動型模板通常是進行波動范圍比較,故多采用絕對值、上升、下降等比較方式。該方式需設置波動值比較

波動值比較

用于計算波動率。

您可根據波動率計算公式(波動率=(樣本-基準值)/基準值)計算結果:

  • 樣本:當天采集的具體樣本值。例如,對于SQL任務表行數,1天波動檢測,則樣本是當天分區的表行數。

  • 基準值:歷史樣本的對比值。例如:

    • 若規則是SQL任務表行數,1天波動檢測,則基準值是前一天分區產生的表行數。

    • 若規則是SQL任務表行數,7天平均值波動檢測,則基準值是前7天的表行數據的平均值。

您可設置橙色閾值紅色閾值,對不同嚴重程度的問題進行監控。

  • 場景一:校驗值小于或等于橙色閾值,則返回正常

  • 場景二:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為弱規則,則返回正常。

  • 場景三:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為強規則,則返回橙色報警,但任務不會被阻塞。

  • 場景四:校驗值大于紅色閾值,且規則為弱規則,則返回紅色報警,但任務不會被阻塞。

  • 場景五:校驗值大于紅色閾值,且規則為強規則,則返回紅色報警,且任務會被阻塞。

啟停狀態

用于控制該規則是否在生產環境中運行。

重要

狀態設置為停用時,規則將無法觸發試跑,并且不會被關聯的調度任務觸發運行。

保留問題數據

當規則為啟用狀態時,在本條數據質量監控規則校驗不通過的情況下,系統自動創建問題數據表存儲質量規則校驗過程中發現的問題數據。

重要
  • 目前僅支持MaxCompute表配置保留問題數據功能。

  • 目前僅部分數據質量監控規則支持配置保留問題數據功能。

  • 受啟停狀態影響,若規則為停用狀態,則不執行保留問題數據。

快捷添加

該方式提供了粗粒度的表和字段級常用規則,可幫助您快速配置一個質量監控規則使用。

參數

描述

規則名稱

自定義規則名稱。

規則字段

包括表級規則和字段級規則,字段級規則包括數值類型和非數值類型。

快捷規則

包括表行數大于0、表行數動態閾值字段重復值等多種規則。表級規則和字段級規則可配置的快捷規則存在差異,具體請以實際界面為準。

重要

您需購買DataWorks企業版及以上版本,才可以選擇表行數動態閾值規則。購買或升級DataWorks,詳情請參見購買指引。

啟停狀態

用于控制該規則是否在生產環境中運行。

重要

狀態設置為停用時,規則將無法觸發試跑,并且不會被關聯的調度任務觸發運行。

創建自定義規則

如果模板規則不能滿足您對分區表達式中數據質量的監控需求,您可通過創建自定義規則來滿足個性化的監控需求。

創建自定義規則分為添加監控規則快捷添加。

  • 添加監控規則:提供細粒度的數據監控,可根據需要配置規則的強弱、閾值、比較方式等多種監控參數。若需細粒度的監控數據,可使用該方式。

  • 快捷添加:提供粗粒度的表和字段級常用規則。若需快速體驗質量監控規則功能,或對數據的監控粒度較粗,可使用該方式。

添加監控規則

添加監控規則時,規則字段支持選擇表級規則、字段級規則自定義SQL,不同類型規則的配置參數存在差異。

  • 表級規則字段級規則的主要配置參數如下。

    參數

    描述

    規則名稱

    自定義的規則名稱。

    強弱

    設置規則的強弱程度,不同程度對下游任務的影響不同。

    • 強規則:紅色異常報警并阻塞下游任務節點,橙色異常報警但不阻塞下游任務節點。

    • 弱規則:紅色異常報警不阻塞下游任務節點,橙色異常不報警也不阻塞下游任務節點。

    規則字段

    此處可選擇表級規則字段級規則。表級、字段級?定義規則?持根據業務屬性?定義where過濾條件。

    采樣方式

    支持countcount/table_countsum等多種方式。表級、字段級規則可選擇的采樣方式不同,具體請以實際界面為準。

    說明

    此處的count/table_count指的是根據配置的過濾條件過濾后的結果條數與當前分區的表總行數的比值。

    過濾條件

    輸入過濾條件。例如,您需要查詢業務日期下表的分區,則可設置過濾條件為pt=$[yyyymmdd-1]。

    校驗類型

    支持數值型、波動率型動態閾值型。開啟動態閾值后,無需手動配置波動閾值或期望值,系統會根據智能算法,自動判斷合理閾值,若發現數據異常,會立即觸發報警或阻塞。

    說明

    您需購買DataWorks企業版及以上版本,才可以選擇動態閾值型。購買或升級DataWorks,詳情請參見購買指引

    校驗方式

    進行表數據校驗的方式。不同校驗類型,支持選擇的校驗方式不同。具體請以實際界面為準。

    比較方式

    不同校驗類型,支持選擇的比較方式不同。包括絕對值、上升下降、大于、等于等多種方式,具體請以實際界面為準。

    • 數值型模板通常與固定值(即期望值)進行比較,故多采用大于、等于等比較方式。該類比較方式需設置期望值。

    • 波動型模板通常是進行波動范圍比較,故多采用絕對值上升、下降等比較方式。該方式需設置波動值比較。

    • 動態閾值型通過由系統自動提供合適的閾值,并與該閾值進行比較。該方式需設置樣本參考量,樣本參考量默認為15。

      說明

      模型樣本參考量是指使動態閾值算法模型生效的樣本最小時間窗口范圍,該時間窗口內允許少于10%的數據缺失。未達到樣本參考量時不會報警,缺失數據會由算法自動補齊。

    波動值比較

    用于計算波動率。

    您可根據波動率計算公式(波動率=(樣本-基準值)/基準值)計算結果:

    • 樣本:當天采集的具體樣本值。例如,對于SQL任務表行數,1天波動檢測,則樣本是當天分區的表行數。

    • 基準值:歷史樣本的對比值。例如:

      • 若規則是SQL任務表行數,1天波動檢測,則基準值是前一天分區產生的表行數。

      • 若規則是SQL任務表行數,7天平均值波動檢測,則基準值是前7天的表行數據的平均值。

    您可設置橙色閾值和紅色閾值,對不同嚴重程度的問題進行監控。

    • 場景一:校驗值小于或等于橙色閾值,則返回正常。

    • 場景二:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為弱規則,則返回正常。

    • 場景三:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為強規則,則返回橙色報警,但任務不會被阻塞。

    • 場景四:校驗值大于紅色閾值,且規則為弱規則,則返回紅色報警,但任務不會被阻塞。

    • 場景五:校驗值大于紅色閾值,且規則為強規則,則返回紅色報警,且任務會被阻塞。

    啟停狀態

    用于控制該規則是否在生產環境中運行。

    重要

    狀態設置為停用時,規則將無法觸發試跑,并且不會被關聯的調度任務觸發運行。

  • 自定義SQL規則可根據需要自定義SQL邏輯,主要配置參數如下。

    參數

    描述

    規則名稱

    自定義的規則名稱。

    強弱

    設置規則的強弱程度,不同程度對下游任務的影響不同。

    • 強規則:紅色異常報警并阻塞下游任務節點,橙色異常報警但不阻塞下游任務節點。

    • 弱規則:紅色異常報警不阻塞下游任務節點,橙色異常不報警也不阻塞下游任務節點。

    規則字段

    選擇自定義SQL,支持自定義SQL邏輯(單行單列輸出)。

    采樣方式

    僅支持自定義SQL。

    Set Flag

    輸入SQL的前置set語句。

    自定義SQL

    輸入完整的SQL語句,查詢結果只能返回一行一列的值。

    自定義SQL中,請使用中括號的形式匹配表的分區表達式。示例如下:

    select count(*) from table_name where ds=$[yyyymmdd];

    說明
    • 此處table_name代指當前正在配置監控規則的表名,您需要在實際配置中將其替換為當前實際操作的表名。

    • 配置分區表達式,詳情請參見創建分區表達式。

    • 基于自定義SQL創建的數據質量規則校驗的表分區由當前SQL條件決定,與上述步驟中的分區表達式配置無關。

    校驗類型

    支持數值型、波動率型動態閾值型。開啟動態閾值后,無需手動配置波動閾值或期望值,系統會根據智能算法,自動判斷合理閾值,若發現數據異常,會立即觸發報警或阻塞。

    說明

    您需購買DataWorks企業版及以上版本,才可以選擇動態閾值型。購買或升級DataWorks,詳情請參見購買指引。

    校驗方式

    進行表數據校驗的方式。不同校驗類型,支持選擇的校驗方式不同。具體請以實際界面為準。

    比較方式

    不同校驗類型,支持選擇的比較方式不同。包括絕對值上升、下降、大于、等于等多種方式,具體請以實際界面為準。

    • 數值型模板通常與固定值(即期望值)進行比較,故多采用大于、等于等比較方式。該類比較方式需設置期望值。

    • 波動型模板通常是進行波動范圍比較,故多采用絕對值、上升、下降等比較方式。該方式需設置波動值比較。

    • 動態閾值型通過由系統自動提供合適的閾值,并與該閾值進行比較。該方式需設置樣本參考量,樣本參考量默認為15。

      說明

      模型樣本參考量是指使動態閾值算法模型生效的樣本最小時間窗口范圍,該時間窗口內允許少于10%的數據缺失。未達到樣本參考量時不會報警,缺失數據會由算法自動補齊。

    波動值比較

    用于計算波動率。

    您可根據波動率計算公式(波動率=(樣本-基準值)/基準值)計算結果:

    • 樣本:當天采集的具體樣本值。例如,對于SQL任務表行數,1天波動檢測,則樣本是當天分區的表行數。

    • 基準值:歷史樣本的對比值。例如:

      • 若規則是SQL任務表行數,1天波動檢測,則基準值是前一天分區產生的表行數。

      • 若規則是SQL任務表行數,7天平均值波動檢測,則基準值是前7天的表行數據的平均值。

    您可設置橙色閾值和紅色閾值,對不同嚴重程度的問題進行監控。

    • 場景一:校驗值小于或等于橙色閾值,則返回正常。

    • 場景二:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為弱規則,則返回正常。

    • 場景三:校驗值大于橙色閾值,小于或等于紅色閾值,且規則為強規則,則返回橙色報警,但任務不會被阻塞。

    • 場景四:校驗值大于紅色閾值,且規則為弱規則,則返回紅色報警,但任務不會被阻塞。

    • 場景五:校驗值大于紅色閾值,且規則為強規則,則返回紅色報警,且任務會被阻塞。

    啟停狀態

    用于控制該規則是否在生產環境中運行。

    重要

    狀態設置為停用時,規則將無法觸發試跑,并且不會被關聯的調度任務觸發運行。

快捷添加

該方式提供了粗粒度的字段級常用規則,可幫助您快速配置一個質量監控規則使用。

參數

描述

規則名稱

自定義規則名稱。

規則類型

僅支持多字段重復值

規則字段

設置監控字段。支持選擇多個字段。

啟停狀態

用于控制該規則是否在生產環境中運行。

重要

狀態設置為停用時,規則將無法觸發試跑,并且不會被關聯的調度任務觸發運行。

配置關聯調度

如果您需要在生產鏈路上監控離線數據質量,需要將數據質量規則與產出表數據的調度節點進行關聯:

  • 產出表數據的調度節點必須發布后才可以關聯調度。

  • 關聯前,請確保您在關聯的工作空間中擁有空間管理員、開發運維中至少一個角色。

數據質量的關聯調度是將分區表達式和節點任務相關聯,并且可關聯多個節點任務。關聯調度完成后,分區表達式下的數據質量監控規則將在關聯的任務運行時自動觸發檢測。

說明
  • 數據質量的關聯可以靈活配置,您關聯的任務并非一定與您的表有關系。

  • 若關聯了多個任務節點,每個任務節點運行完,都會觸發質量規則校驗。

image.png

試跑規則

質量規則配置完成后,您可針對某規則通過選擇調度時間進行試跑,確認當前試跑的分區數據是否符合預期。若不符合預期,請根據實際情況調整該規則。

  1. 進入規則詳情頁。

    規則列表頁面,根據條件篩選目標規則,單擊該規則即可進入規則詳情頁。

  2. 試跑規則。

    在規則詳情頁,選擇目標規則并設置調度時間,進行試跑。試跑完成后,根據界面指引進入任務查詢,查看并處理試跑結果。步驟如下。

    說明

    質量規則是基于表分區進行配置的,若某分區下存在多個規則,您也可選擇批量試跑多個規則。

    image.png

管理規則

規則創建完成后,您還可對已創建規則執行如下管理操作。

訂閱規則

觸發規則后默認僅通知規則創建者,若您想通知其他用戶,則可在相應表的質量監控規則詳情頁,單擊訂閱管理添加需要通知的用戶。

訂閱方式包括郵件通知、郵件和短信通知、釘釘群機器人、釘釘群機器人@ALL、飛書群機器人、企業微信機器人自定義Webhook。

說明
  • 添加釘釘群、飛書群和企業微信機器人獲取Webhook地址后,復制Webhook地址至訂閱管理中即可。

  • 僅DataWorks企業版版本支持使用自定義Webhook方式,DataWorks推送自定義Webhook的報警信息的消息格式請參見:附錄:Webhook消息格式。

查看分區操作日志

在相應表的質量監控規則詳情頁,單擊分區操作日志,即可在操作日志對話框中查看歷史操作的詳細信息。操作內容顯示當前分區表達式設置的所有規則。

查看上一次校驗結果

在相應表的質量監控規則詳情頁,單擊上一次校驗結果,即可進入任務查詢頁面查看當前分區表達式下的運行結果情況和歷史結果。

復制規則

在相應表的質量監控規則詳情頁,單擊復制規則,即可根據需要選擇復制當前規則至哪個分區表達式。同時,您還可選擇是否同步規則的訂閱人,或替換自定義SQL規則中的表名。

說明

該操作會復制當前分區表達式下的所有規則到所選的目標分區表達式中。

后續步驟

若在指定業務時間內,您希望不符合質量校驗規則的數據不阻塞任務運行,可以使用去噪管理功能,詳情請參見配置數據質量規則去噪