DataWorks數據地圖為您提供元數據采集功能,方便您將不同系統中的元數據進行統一匯總管理,您可以在數據地圖查看從各數據源匯集而來的元數據信息。本文為您介紹如何創建采集器,將各數據源的元數據信息匯集至DataWorks。
前提條件
您需要先在工作空間新建數據源后,才可以進行元數據采集。新建數據源配置詳情請參見:數據源管理。
元數據采集概述
在工作空間中新建數據源后,DataWorks可以面向數據源提供元數據采集能力。在數據地圖中開啟元數據采集后,系統將一次性全量采集存量的元數據,同時每天采集增量的元數據,并匯集至數據地圖,方便您進行數據總覽、分類分組管理數據表、查看數據血緣關系等操作。
如果系統默認配置的采集計劃不適用,支持您修改采集器執行計劃,詳情請參見管理元數據采集器。
MaxCompute和E-MapReduce(DLF)數據源綁定至數據開發后,由系統自動運維元數據采集器,您無需額外管理元數據采集器。
支持的數據源及元數據采集方式
數據源類型 | 元數據采集方式 | 是否能在數據地圖中看到采集器 | 元數據更新時效性 | ||
數據表/字段 | 分區 | 數據血緣 | |||
MaxCompute |
| 否 | 普通項目:實時 外部項目:T+1 | 國內地域:實時 海外地域:T+1 | T+1 |
E-MapReduce(DLF) 說明 需要為集群開啟EMR_HOOK。 |
| 否 | 實時 | 實時 | 實時 |
E-MapReduce(HMS / RDS) 說明 需要為集群開啟EMR_HOOK。 |
| 是 | 實時 | 實時 | 實時 |
Hologres |
| 是 | 取決于自定義采集計劃 | 不支持 | 實時 |
AnalyticDB for PostgreSQL |
| 是 | 取決于自定義采集計劃 | 不支持 | 實時 |
AnalyticDB for MySQL |
| 是 | 取決于自定義采集計劃 | 不支持 | 實時 說明 需要提交工單為AnalyticDB for MySQL實例開啟數據血緣功能。 |
AnalyticDB for Spark |
| 是 | 實時 | 不支持 | 實時 |
CDH Hive |
| 是 | 取決于自定義采集計劃 | 實時 | 實時 |
Data Lake Formation(DLF) | 自動啟動采集 | 否 | 實時 | 實時 | 不適用 |
其他數據源類型(MySQL、PostgreSQL、SQL Server、Oracle、Table Store(OTS)、StarRocks、Clickhouse等) |
| 是 | 取決于自定義采集計劃 | 不支持 | 不支持 |
使用限制
僅支持對當前登錄賬號所屬的工作空間中已配置的數據源,進行元數據采集操作。如果您需要采集其他工作空間中數據源的元數據信息,您可以聯系空間管理員添加空間成員,詳情請參見為工作空間添加空間成員。
當您需要采集已開啟白名單訪問控制的數據源的元數據時,則需要提前配置好數據庫的白名單權限。詳情請參見元數據采集的數據源有白名單訪問控制時需要配置的白名單。
DataWorks目前不建議跨地域采集元數據,即DataWorks所在的地域需要與數據源所在的地域相同。如需跨地域采集元數據,請在新建數據源時使用公網地址。詳情請參見創建并管理數據源。
暫不支持使用MySQL元數據采集器來采集OceanBase數據源。
功能入口
在左側菜單欄,單擊元數據采集。
您可以在數據源視角對已配置的各數據源的元數據采集器進行管理。對于無數據源的情況,支持您單擊新建數據源,進入數據源配置頁面,創建數據源。
查看元數據采集器
整體統計
在元數據采集頁面,您可以在數據源視角查看元數據采集總覽,主要為您展示已創建采集器的數據源數量。
明細列表
您還可以單擊目標數據源類型右上角的管理按鈕,進入采集明細頁面,查看指定工作空間下相應采集器的運行狀態、執行計劃、上次運行時間、上次消耗時間、平均運行耗時及上次運行時更新及添加的表數量。
管理元數據采集器
單擊目標數據源右上角的管理按鈕,默認進入已采集列表,您可以對已有采集器進行如下操作。
運行元數據采集器
支持您手動運行元數據采集器,您可以根據業務需要在已采集列表頁面找到目標數據源單擊操作列的運行,即可執行一次元數據采集。
修改元數據采集器的執行計劃
進入已采集列表,單擊目標數據源采集器操作列的編輯,即可修改采集器的執行計劃,支持的執行計劃包括手動采集或周期采集。
手動采集:在配置目標數據源的元數據采集器后,需要按需手動觸發元數據的采集和更新。
周期采集:在配置目標數據源的元數據采集器后,您無需手動觸發,系統會按照配置的采集計劃周期性進行元數據的采集和更新。
移除元數據采集器
支持您在已采集列表頁面找到目標數據源單擊操作列的移除,移除當前數據源的元數據采集器。移除后該數據源將會進入未采集列表,不再進行元數據采集。
創建元數據采集器
新建數據源或注冊集群后,您可以進入數據地圖中開啟元數據采集,在已采集列表中查看目標數據源的元數據采集情況。
移除元數據采集器后,如果后續您需要重新啟動采集,支持您在未采集列表中重新創建元數據采集器,以下是詳細的操作步驟。
單擊列表頂部的未采集列表。
找到目標數據源,單擊操作列的元數據采集,在彈出來的配置采集計劃框中配置各項參數。
說明不同數據源配置采集計劃界面可能存在差異,請以產品界面為準。
參數
描述
資源組名稱
選擇已與數據源網絡連通的資源組。數據地圖支持您選擇如下3種資源組,您可根據需求選取:
默認資源組
default
。您自己的獨享調度資源組。
您自己的獨享數據集成資源組。
您自己的Serverless資源組(通用型資源組)。
連通性測試
選擇完資源組名稱后,如果您想再次測試資源組與數據源的連通性,您可以單擊測試連通性進行驗證。如果顯示測試連通性未通過:
請確認數據源是否開啟了白名單限制,如果需要采集已開啟白名單訪問控制的元數據,請參考元數據采集的數據源有白名單訪問控制時需要配置的白名單配置白名單權限。
如果數據源未開啟白名單限制,請參考資源組操作及網絡連通文檔進行數據源網絡打通。
采集計劃
包括手動采集、每月、每周、每天及每小時。根據不同的執行周期,生成不同的執行計劃,在相應執行計劃的時間內,對目標數據源進行元數據采集。
手動采集:根據實際業務需求,在業務需要時手動觸發元數據的采集和更新。
月采集:即在每月所指定日期的指定時間點自動采集一次元數據。
重要部分月份不包含29、30、31日,請您謹慎選擇月末日期。
周采集:即在每周所指定日期的指定時間點自動采集一次元數據。
不輸入時間時,則默認在每周指定幾天的00:00:00采集。
天采集:即在每天特定的時間點自動采集一次元數據。
小時采集:即在每小時的第
N分鐘
自動采集一次元數據。
確認配置信息無誤后,單擊確認。
系統會根據配置的采集計劃,進行元數據采集,如果是手動采集,您可以根據實際業務需求,在業務需要時進入已采集列表,找到目標數據源,單擊操作列的運行,即可手動執行采集任務。
后續步驟
采集元數據成功后,您可以在數據地圖中進行數據總覽、分類分組管理數據表、查看數據血緣關系等操作。詳情請參見數據總覽、查找表、業務視角管理:數據專輯。