MaxCompute湖倉一體方案通過數據倉庫MaxCompute和數據湖共同實現,將數據湖的靈活性、生態豐富能力與數據倉庫的企業級部署能力進行融合,助力于構建數據湖和數據倉庫相融合的數據管理平臺。本文為您介紹如何通過Dataphin管理MaxCompute和數據湖構建DLF的湖倉一體的數據資產。
背景信息
MaxCompute湖倉一體方案通過數據倉庫MaxCompute和數據湖共同實現。當前支持的兩種構建湖倉一體方式如下:
通過MaxCompute與數據湖構建DLF和對象存儲OSS構建湖倉一體:數據湖的元數據(Schema)全部位于DLF中。MaxCompute可以利用DLF對OSS元數據管理能力,提升對OSS半結構化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)數據的處理能力。更多DLF和OSS介紹,請參見數據湖構建DLF和對象存儲OSS。
通過MaxCompute與Hadoop構建湖倉一體:該方式包括本地機房搭建、基于云上虛擬機搭建以及阿里云E-MapReduce等。當MaxCompute與Hadoop平臺所在的VPC區域網絡開通后,MaxCompute可以直接訪問Hive元數據服務,并將元數據信息映射到MaxCompute的外部項目(External Project)中。
前提條件
在開始使用Dataphin管理通過MaxCompute與DLF和OSS構建的湖倉一體前,您需要確保已經完成以下準備工作:
已開通DLF服務。您可以在DLF開通頁面,開通DLF服務。
已開通OSS服務。詳情請參見開通OSS服務。
已開通MaxCompute服務并創建了MaxCompute項目,詳情可見MaxCompute項目。
create externalproject -source dlf -name external_project -- 必填。待創建External Project的名稱。 -ref maxcompute_project -- 已創建的MaxCompute項目名稱 -comment "DLF" -region "cn-hangzhou" -- DLF所在地域的RegionID。各地域RegionID信息,請參見獲取RegionID及VPC ID。 -db metadat_store -- DLF元數據庫的名稱。 -endpoint "dlf-share.cn-hangzhou.aliyuncs.com" -- DLF的Endpoint信息 -ossEndpoint "oss-cn-hangzhou-internal.aliyuncs.com"; -- OSS所屬地域的Endpoi
MaxCompute訪問授權
當您通過MaxCompute與Hadoop構建湖倉一體時,授權方法如下。
授予MaxCompute在用戶VPC內創建ENI網卡的權限,以實現MaxCompute到用戶VPC的網絡連通。您可以使用VPC所有者賬號登錄阿里云,單擊授權進行授權。
當您通過MaxCompute與DLF和OSS構建湖倉一體時,授權方法如下。
MaxCompute項目的賬號未經授權無法訪問DLF,您需要執行授權操作。授權方式包含以下兩種:
通過Dataphin管理MaxCompute湖倉一體
數據湖構建DLF可用于OSS的元數據發現及管理,MaxCompute可基于DLF創建外部項目將DLF管理的元數據注冊到MaxCompute的外部項目中。Dataphin即可基于MaxCompute和DLF對湖倉一體的數據進行數據的加工處理(離線研發及規范建模),元數據管理、訪問權限及安全管理、數據質量稽核與計算資源的治理。
創建MaxCompute計算源并綁定到Dataphin項目中
需要創建MaxCompute計算源,將MaxCompute的外部項目注冊進來。由于MaxCompute外部項目不包含計算資源,我們需要額外指定一個MaxCompute項目用戶任務的執行、質量規則、安全規則掃描以及安裝安全策略。如何創建MaxCompute計算源,詳情請參見新建MaxCompute計算源。
創建好計算源后,即可創建項目,并將創建好的計算源注冊為MaxCompute的計算源。
基于MaxCompute湖倉一體的外部項目的數據進行規范建模和數據處理
創建MaxCompute計算源并綁定到Dataphin項目中后,規范建模可基于外部項目中的來源表創建邏輯表,MaxCompute SQL任務可用映射的內部項目的計算資源來執行,并支持讀寫外部項目中的表數據。
查看湖倉一體的元數據信息及進行權限管控
支持查看元數據信息。
支持外部項目中的數據表及字段的資產搜索及查詢。
支持數據預覽。
支持生成select語句及DDL語句。
支持申請外部項目中的表及字段的權限。
對湖倉一體的數據進行質量稽核和安全管控
支持基于外部項目的物理表配置數據表質量規則。
支持MaxComput SQL任務執行質量規則校驗。
支持安全規則掃描以及安裝安全策略。