采集任務通過采集適配器連接到指定的數據源,將源數據庫中的對象元數據信息采集至Dataphin,通過內置解析器進行解析后存儲并進行統一呈現。本文為您介紹如何創建及管理元數據采集任務。
使用限制
若采集的元數據存在同名但名稱大小寫不一致的情況時,系統僅識別計算引擎默認支持的寫法(如Oracle默認識別大寫名稱對象),其他同名元數據不做處理。
權限說明
超級管理員、系統管理員和具有元數據采集任務管理權限的自定義全局角色支持新建及管理元數據采集任務。
新建采集任務
在Dataphin首頁的頂部菜單欄,選擇治理 > 元數據。
單擊左側導航欄的采集任務,再單擊+新建采集任務按鈕,進入新建采集任務對話框。
在新建采集任務對話框中,配置參數。
參數
描述
采集任務名稱
采集任務的名稱,全局唯一,不超過512個字符。
負責人
采集任務的負責人,可選擇具有采集任務管理權限的成員。
采集任務描述
可添加采集任務的描述,不超過1000個字符。
數據源
根據數據源類型篩選數據源。支持關系型數據庫和大數據存儲數據庫。
關系型數據庫:支持的數據源包括MySQL、Oracle、PostgreSQL、Microsoft SQL Server、AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、SAP HANA、IBM DB2。
大數據存儲:支持的數據源包括Hive(MySQL元數據庫)、Hologres、StarRocks。
您可以點擊查看,跳轉至數據源管理頁面,系統會為您篩選出相關的數據源。
說明若選中的數據源未配置數據源編碼,后續可能無法通過JDBC或在BI平臺使用已采集的元數據。如果需要配置數據源編碼,詳情請參見Dataphin支持的數據源。
一個數據源僅支持配置一個采集任務,同一個數據源的2個不同環境源(開發環境和生產環境)可分別配置采集任務。
采集范圍
您可以根據不同的數據源類型配置不同的任務采集范圍。
當數據源類型為MySQL、AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、Hive、StarRocks時,將根據數據源配置的JDBC URL自動解析對應的dbname(數據庫名稱)。
當數據源類型為Oracle、PostgreSQL、Microsoft SQL Server、SAP HANA、IBM DB2、Hologres時,支持根據schema(即數據源實例下的數據庫名稱)配置采集范圍,您可以選擇全部schema和指定schema。
全部schema:根據數據源配置動態獲取所有有查詢權限的schema。
指定schema:根據數據源配置指定其他有權限的schema或一鍵快捷填充默認schema;若自定義輸入schema,字符需區分大小寫。
說明當采集范圍為Hive、StarRocks數據源時,單張分區表根據創建時間采集最近10萬個分區。
采集對象類型
支持表、視圖、字段三種采集對象類型。
說明當數據源為StarRocks時,不支持采集同步物化視圖。
歸屬業務系統
請選擇從該來源采集的元數據歸屬的業務系統,后續可用于資產對象篩選、業務系統血緣關系展示等場景。如需創建,請參見管理業務系統元數據。
單擊下一步,配置采集策略。
參數
描述
數據更新策略
新增/變更元數據
對比上一次采集,若源系統有新增、更新的數據,系統將會添加新的元數據,更新已變更元數據。
已刪除元數據
對比上一次采集,若源系統有刪除的數據,可選擇從元數據清單及資產清單中刪除或忽略刪除操作。
從元數據清單及資產清單中刪除:同步刪除已經采集的元數據信息,刪除后無法恢復。
忽略刪除操作:忽略源系統的刪除操作,仍可在元數據清單和資產清單中查看該對象詳情和歷史版本,后續可手動刪除。
數據采集計劃
采集頻率
用于控制任務采集的頻率,支持定時采集和手動采集。
定時采集:根據配置的調度時間自動執行任務的采集,適用于對采集任務更新時效性較高的場景,支持每日、每周、每月,可配置的定時開始執行時間區間為00:00~23:59。當選擇每月調度時間,支持選擇月末日。
手動采集:需要手動觸發任務的采集,適用于元數據變更頻率較低且希望節約資源的場景。
運行配置
出錯重試
針對運行失敗的采集實例,可以根據配置的重試次數和重試間隔決定是否重新運行采集實例。
重試次數:采集實例運行失敗后是否需要自動重試運行以及最大可自動重試的次數。默認1次,支持配置1~10次之間的正整數。
重試間隔:每次自動重新運行的時間間隔。默認5分鐘,支持配置的時間范圍為1~60分鐘。
說明出錯重試和定時采集可能會產生沖突,如果到達下一個采集時間點,上一次采集任務運行仍未結束,則下一次定時采集將會自動推遲,您可以在采集實例列表手動終止任務執行,詳情請參見管理采集實例。
運行超時
若采集任務的運行總時長(開始運行到結束運行時間,不包括資源等待和調度等待時間)超過設置的閾值仍未結束,系統會自動終止并置為失敗。支持設置的時間范圍為0~24小時,最多設置一位小數。
調度資源
采集任務調度時將占用該資源組的資源配額,為了避免并發過高占用較多資源影響其他系統任務正常運行,全局所有租戶創建的采集任務遵循統一的并發運行數,請合理分配調度資源。支持選擇當前租戶下創建的狀態為正常的資源組。
連接配置
您可以查看已選采集源的連接配置信息,作為采集頻率和采集時間配置的參考,詳情請參見Dataphin支持的數據源。
說明當前的連接配置將同時應用于離線集成任務、全域質量監控規則、元數據采集任務。
單擊確定,完成采集任務的創建。
管理采集任務
采集任務頁面為您展示采集任務的名稱、采集的數據源類型、數據源及數據源編碼、負責人、采集方式、最近1次采集的狀態和時間、描述、生效狀態、任務狀態、最近更新時間信息。
任務狀態:在采集任務列表中查看相應任務的任務狀態,任務狀態分為正常、創建失敗、更新失敗、刪除失敗、置為生效失敗、置為失效失敗、置為生效中、置為失效中、創建中、更新中、刪除中、異常,且僅針對單個操作,相應任務狀態下可執行的操作如下表。
任務狀態
操作項
正常
查看、編輯、臨時手動執行(定時采集任務支持該操作)、手動執行(手動任務支持該操作)、克隆、刪除、查看元數據、查看采集實例、開啟或關閉生效狀態。
創建失敗
重試、查看執行日志、查看、編輯、刪除。
更新失敗/刪除失敗/置為生效失敗/置為失效失敗
重試、查看執行日志、查看、編輯、刪除、查看元數據、查看采集實例。
置為生效中/置為失效中
查看。
置為生效中或置為失效中時不支持修改生效狀態。
創建中/更新中/刪除中
查看。
異常
查看、編輯、刪除、查看元數據、查看采集實例。
(可選)您可以根據采集任務的名稱搜索目標采集任務,也可以快捷篩選我負責的任務、生效任務,或者根據任務狀態、生效狀態、負責人、數據源類型、數據源環境、數據源、采集方式篩選目標采集任務。
在目標采集任務操作列下可進行如下操作。
操作項
描述
重試
支持將運行失敗的采集任務重新運行。
查看執行日志
支持查看運行失敗的采集任務的運行日志。
查看
支持查看采集任務的配置信息。
編輯
不支持修改數據源類型和數據源,其他信息修改后,不影響生效狀態。
臨時手動執行
僅正常狀態的定時采集任務支持臨時手動執行,如果在到達下一次定時運行時間時本次運行的實例仍未結束,可能會導致數據不一致。若該任務已經存在一個正在運行中的實例(定時采集實例和臨時手動執行的采集實例),需要先終止該實例,然后再重新操作。
手動執行
僅正常狀態的手動采集任務支持手動執行,若該任務已經存在一個正在運行中的實例(定時采集實例和臨時手動執行的采集實例),需要先終止該實例,然后再重新操作。
克隆
支持快速復制采集任務的配置信息,但是需要重新配置數據源和采集范圍。
刪除
單個刪除:您可以單擊操作列下的,選擇刪除,刪除采集任務。
批量刪除:選中需要刪除的采集任務,單擊底部的圖標,批量刪除采集任務。
說明刪除任務不會影響正在運行中的實例,如果需要,您可以手動終止。任務刪除成功后,不會繼續生成新的采集實例。支持配置的刪除策略為同步刪除已采集的元數據和僅刪除任務,保留已采集的元數據。
同步刪除已采集的元數據:同步從元數據清單列表和資產清單中刪除通過該任務從指定數據源采集到的元數據。
僅刪除任務,保留已采集的元數據:僅刪除采集任務本身,在元數據清單和資產清單中保留從指定數據源已經采集到的元數據。后續如果選擇相同的數據源重新創建采集任務,可能會覆蓋已保留的元數據信息。
查看元數據清單
支持跳轉至元數據清單列表頁面,系統會為您篩選出該任務配置的數據源相關的元數據信息。
查看采集實例
支持跳轉至采集實例列表頁面,系統會為您篩選出與該任務相關的實例。
修改生效狀態
修改單個生效狀態:您可以單擊生效狀態列下的開關,開啟或關閉生效狀態。
批量修改生效狀態:選中需要修改生效狀態的采集任務,單擊底部的圖標,開啟或關閉生效狀態。
說明開啟后,采集任務將會按照配置的調度自動執行;關閉后,正在運行中或已生成待運行的實例不受影響,后續生成的采集實例將不會自動執行,您可以手動運行任務。