在業務運行中,經常會沉淀到大量數據到數據湖中這部分數據可能是沒有像數據倉庫一樣經過嚴格的數據管理流程或沉淀規范明確的元數據信息。元數據抽取可以分析數據湖中特定格式的數據,并自動生成元數據信息,通過周期性或手動執行,實現數據湖分析計算schema on read目標。
使用限制
抽取的數據存儲僅支持數據存儲在阿里云OSS標準型中的數據。
目前元數據發現僅支持JSON、CSV、Parquet、ORC、Hudi、Delta、Avro格式。
元數據發現消耗算力,目前暫不收取費用。
操作步驟
登入數據湖構建控制臺。
在左側導航欄,單擊元數據> 元數據抽取。
在元數據抽取頁面,單擊新建抽取任務。
輸入元數據抽取任務的配置參數,詳細參數說明如下。
參數配置
字段描述
抽取任務名稱
元數據抽取任務的名稱,輸入為中英文數字和(_)。
OSS路徑
指定待抽取數據的OSS目錄。
排除模式
排查指定OSS目錄下的文件,支持正則匹配。
解析格式
支持JSON、CSV、Parquet、ORC、Hudi、Delta、Avro中某一類格式進行抽取,或采用自動識別模式會對數據文件自動解析。
目標數據庫
抽取獲取的元數據存儲在元數據庫的位置。
目標數據表前綴
通過元數據抽取生成跟文件一致的表名,輸入目標元數據表前綴后,會在表名前添加前綴。
抽取任務發現表字段更新時
當元數據抽取任務獲取的表與現有表字段發現不一致時,采取:
僅新增列,不會刪除元數據中原有的列。
更新表結構,根據最新探測的表結構生成新的表結果。
忽略更新,不修改任何表,現有元數據保持不變。
說明ORC文件不支持識別新增列。
如何處理OSS中發現已刪除對象
當元數據抽取任務探測到原來表對應OSS數據已經被刪除,采取:
刪除對應的元數據。
忽略更新,不刪除任何表。
RAM角色
執行元數據抽取任務時采用的角色,默認為AliyunDLFWorkFlowDefaultRole,賦予DLF產品有作業執行的權限。
執行策略
手動執行,通過手動方式觸發任務執行。
調度執行,周期性的通過指定時間執行元數據抽取任務。
抽取策略
快速抽取:抽取元數據時只掃描每個文件的部分數據,抽取作業消耗時間較短,抽取結果準確性低于全量抽取,您可以在元數據編輯中調整元數據信息。
全量抽取:抽取元數據時掃描全量數據文件,在數據規模比較大時,作業消耗時間長,抽取結果更準確。
5. 確認任務執行的相關參數,單擊保存并立即執行。