數據治理中心可自動發現平臺使用過程中數據存儲、任務計算、代碼開發、數據質量及安全等維度存在的問題,并通過健康分量化評估,從全局、工作空間、個人等多個視角,以治理報告及排行榜呈現治理成果,幫助您高效達成治理目標。同時,提供任務資源消耗明細、費用預估等功能,幫助您有效控制各類資源費用。
使用限制
版本限制
目前僅支持DataWorks企業版及以上版本使用數據治理中心。DataWorks各版本介紹,詳情請參見DataWorks各版本詳解;購買DataWorks,詳情請參見購買指引。
地域限制
目前僅支持華北2(北京政務云)、華東2(上海金融云)、華東2(上海)、華東1(杭州)、華北2(北京)、華南1(深圳)、西南1(成都)、中國(香港)、新加坡、美國(硅谷)、德國(法蘭克福)、印度尼西亞(雅加達)地域使用數據治理中心。
權限限制
使用數據治理中心的用戶角色主要如下,其權限限制如下。
角色
權限說明
相關參考
租戶級數據治理管理員
租戶級數據治理管理員可使用全局視角查看治理評估報告、治理項問題、檢查項事件等,執行相應的整改操作。
授權操作,詳情請參見管理租戶成員角色權限。
數據治理管理員的詳細權限,請參見數據治理。
空間管理員
可使用工作空間視角查看治理評估報告。如您需使用該視角查看某工作空間的治理評估報告,需被授權為該空間的空間管理員。
授權操作,詳情請參見添加空間成員并管理成員角色權限。
查看治理評估報告,詳情請參見查看治理評估報告。
空間級數據治理管理員
該角色可以查看并管理該角色所屬空間的數據治理相關內容。
說明該角色不能通過全局視角查看當前地域所有空間下的治理情況,且無法針對全局的治理操作(例如全局允許啟用檢查項)進行管控。若要允許RAM用戶通過全局視角執行上述操作,請授予其租戶級數據治理管理員角色。
授權操作,詳情請參見添加空間成員并管理成員角色權限。
空間級數據治理管理員角色具體支持的功能詳情,請參見數據治理。
普通用戶
數據治理工作中實際處理待治理問題的整改人員,可使用個人視角查看檢查項事件及治理項問題,并執行整改操作。如您需整改租戶下存在的問題,則需被授權為該空間的成員。
說明通常,除阿里云主賬號和具有AliyunDataWorksFullAccess權限的RAM用戶外,其他租戶內成員默認均為普通用戶。
授權操作,詳情請參見添加空間成員并管理成員角色權限。
目前僅支持阿里云主賬號或具有AliyunDataWorksFullAccess權限的RAM用戶(即子賬號)使用數據治理中心的全部功能。如您需使用數據治理中心的全部功能,則可授予RAM用戶該權限,授權詳情,請參見為RAM用戶授權DataWorks相關管理權限。
數據源限制
目前僅支持MaxCompute、E-MapReduce和Hologres數據源。
說明如需在數據治理中心中使用Hologres數據源,請先在數據地圖中采集Hologres元數據。具體操作,請參見元數據采集。
當前僅華北2(北京)、華東2(上海)、華東1(杭州)和華南1(深圳)地域的數據治理中心支持Hologres數據源。
數據治理邏輯
數據治理問題檢測包括數據開發任務提交發布前的檢查項檢測,及提交發布后的治理項檢測,幫助您全方位管控當前數據存在的待治理問題。當觸發檢測項后,若校驗不通過,則會生成相應事件(嚴重問題將阻塞開發流程),您需通過治理中心查看并處理該事件問題,直至校驗通過后,該任務才可執行后續步驟。數據治理邏輯如下圖所示。DataWorks的工作空間分為標準模式和簡單模式,不同模式工作空間下任務的開發流程存在一定差異。本文以標準模式工作空間的開發流程示例。實際流程請根據您使用的工作空間模式為準。不同模式工作空間的通用開發流程,詳情請參見任務開發流程。
檢查項檢測。
用于提交發布前的管控治理,主要校驗規范性問題。在進行數據開發前,可通過檢查項對數據開發功能相關的約束進行檢查,當檢查出存在不符合約束規范的內容時,系統會生成影響開發流程正常執行的問題事件。您可基于該事件處理暴露的問題,以便數據開發流程可以正常執行。
治理項檢測。
用于提交發布后的管控治理。可使用數據治理中心的治理功能,通過全局視角、個人視角或工作空間視角,查看對應的待治理項。數據治理人員可以基于暴露的待治理項,快速發現并解決存在的問題,推進團隊內的數據治理目標。
相關概念
檢查項:用于任務提交、發布等環節的事前檢查,在開發流程中檢測不符合數據規范的內容,生成影響開發流程正常執行的問題事件,約束、管理開發流程。
例如,檢查項可以配置為禁止使用
select*
語句,不允許通過create table
語句創建表等。檢查項事件:檢查項檢測出的影響開發流程正常執行的問題事件。
治理項:用于任務提交、發布后的分析環節,檢測系統存在的待治理優化問題。治理項包括強治理項和可選治理項,強治理項默認全局開啟,且不可更改,可選治理項可根據需求選擇是否啟用。
例如,治理項可以配置為任務運行時間超長、連續出錯節點、無人訪問葉子節點、空跑節點等。
治理項問題:治理項檢測出的待治理優化問題。
治理方案模板:數據治理中心提供的統一模板,配置了常見的檢查項及治理項,默認為啟用狀態。您可直接使用該模板檢測問題數據,若模板的配置項無法滿足需要,則也可自定義檢查項及治理項。
健康分:基于治理項,按照系統預先定義的模型計算得出,用于評估治理成效。
治理單元:由一個或多個工作空間組成,用于集中統計指定工作空間的整體健康分、治理項問題和檢查項事件。
知識庫:數據治理中心提供的,針對常見檢查項事件及治理項問題給出的解決方案。
數據治理流程
數據治理流程如下圖所示。
配置治理工具。
啟用治理方案模板并自定義檢測項。
細分操作
操作目的
操作指導鏈接
啟用治理模板
數據治理中心的整體治理操作是基于治理方案模板執行的,模板中包含了預先配置的檢查項及治理項,在治理前期,您需要開啟治理方案模板后,才能進行后續治理操作。當前僅支持使用默認模板,且該模板默認為啟用狀態。
自定義檢查項
若模板中提供的檢查項不符合您的需要,則可根據實際情況自定義檢查項。
注冊檢查項。
如果您希望對擴展程序進行檢測,則可以注冊檢測擴展程序的檢查項,注冊后,數據治理中心后續會檢測擴展程序觸發的檢查項事件。
關閉檢查項。
如果模板中包含您無需使用的檢查項,則您可以配置指定工作空間停止使用目標檢查項,停止使用后,該檢查項對目標工作空間不生效,數據治理中心后續將不會檢測目標工作空間中該檢查項觸發的檢查項事件。
自定義治理項
如果模板中包含您無需使用的治理項,則可設置排除規則,定義指定治理項在目標工作空間中不啟用。排除治理項后,數據治理中心將不會檢測該工作空間下對應的治理項問題。同時,在待治理列表中也不會展示該治理項問題。
說明數據治理中心僅支持停用可選治理項,不支持停用強治理項,并且不支持新建治理項。
配置治理單元(可選)。
DataWorks通常包含較多的工作空間,您可采用治理單元,按照業務劃分,將一個或多個目標工作空間統一管理,集中統計該單元下所有工作空間的整體健康分、治理項問題及檢查項事件。配置治理單元,詳情請參見配置治理單元。
配置消息通知(可選)。
如果您希望將待解決的治理問題通過系統消息、郵件、釘釘群消息、Webhook等方式定期發送至指定人員,方便及時查看并處理,則可配置消息通知。配置詳情,請參見配置消息通知。
啟動檢查并處理待治理問題。
選擇分析視角。
基于使用場景:DataWorks提供數據生產、數據使用、數據管理等多維視角,助力您分析數據治理情況,高效進行數據治理工作。詳情請參見全景視角。
基于合理利用資源的目的:DataWorks提供消費和任務運行情況、MaxCompute表的數量及存儲情況、資源使用概況及明細,助力數據開發者及管理者查看和分析工作空間的整體資源情況,為合理使用整體資源做輔助判斷。詳情請參見透視分析:按資源類型。
查看治理成效。
待治理問題處理完成后,您可以進入治理評估頁面,通過治理評估報告或治理排行榜,從不同視角查看已執行的治理操作所取得的治理成效。您可以通過分析治理結果,快速識別治理項問題較多的維度及問題類別,推動治理工作的解決落地,達成治理目標。查看治理結果,詳情請參見查看治理結果。
數據治理中心是基于治理項,按照定義的健康分模型進行量化評估,最終通過治理評估報告及治理排行榜中的健康分來體現當前所取得的治理成效,健康分越高,治理成效越好。健康分相關內容,詳情請參見量化評估:健康分。
量化評估:健康分
健康分是依據數據資產在數據生產、數據流通及數據管理中的用戶行為、數據特性、任務性質等元數據,使用數據處理及機器學習等技術,對各類型數據進行綜合處理和評估,通過個人、工作空間維度客觀呈現數據資產狀態的綜合分值。在數據治理中,健康分體系依托不同元數據,建設了“存儲、計算、研發、質量和安全”等五大健康度領域,并構建“存儲健康分、計算健康分、研發健康分、質量健康分和安全健康分”五大健康分指標。
健康分的取值范圍為0至100,分值越大表示數據資產的健康度越好,較高的健康度可以幫助您更放心、高效、穩定的使用數據,保障數據生產和業務運轉。數據治理中心基于治理項,按照定義的健康分模型進行量化評估,最終通過健康分的形式來體現當前賬號的治理成效,健康分越高,治理成效越好。數據治理評估等級和健康分的對應關系如下。
等級 | 健康分 |
優秀 | 【90,100】 |
良好 | 【75,90) |
及格 | 【60,75) |
需改進 | 【30,60) |
極差 | 【0,30) |