快速入門
本文為您介紹如何快速使用數(shù)據(jù)-湖構(gòu)建(Data Lake Formation,DLF)。
前提條件
數(shù)據(jù)湖構(gòu)建采用OSS作為統(tǒng)一數(shù)據(jù)湖位置,您需要注冊(cè)一個(gè)OSS的Bucket或指定OSS路徑作為數(shù)據(jù)湖位置。詳情請(qǐng)參見(jiàn)創(chuàng)建存儲(chǔ)空間。
控制臺(tái)概覽
數(shù)據(jù)湖構(gòu)建控制臺(tái)概覽分為2個(gè)部分,左側(cè)為主要功能區(qū),右側(cè)為產(chǎn)品主要信息,幫助您快速上手產(chǎn)品。
元數(shù)據(jù)管理
元數(shù)據(jù)管理是構(gòu)建高效數(shù)據(jù)湖的關(guān)鍵組成部分,通過(guò)集中化和系統(tǒng)化的元數(shù)據(jù)管理,能夠顯著提升數(shù)據(jù)資產(chǎn)的價(jià)值與可用性。您可以使用該功能管理數(shù)據(jù)湖中的數(shù)據(jù)目錄、數(shù)據(jù)庫(kù)和數(shù)據(jù)表。
創(chuàng)建數(shù)據(jù)目錄
在左側(cè)菜單欄,選擇
。單擊數(shù)據(jù)目錄頁(yè)簽,單擊新建數(shù)據(jù)目錄。
在輸入框中輸入以下內(nèi)容,單擊確定。
目錄ID:必選,唯一標(biāo)識(shí),不可重名。
描述:可選,輸入描述信息。
目錄路徑:可選,輸入默認(rèn)的存儲(chǔ)路徑,目前僅支持OSS路徑。
更多關(guān)于數(shù)據(jù)目錄的操作,請(qǐng)參見(jiàn)數(shù)據(jù)目錄。
創(chuàng)建數(shù)據(jù)庫(kù)
在左側(cè)菜單欄,選擇
。單擊數(shù)據(jù)庫(kù)頁(yè)簽,選擇目標(biāo)數(shù)據(jù)目錄,單擊新建數(shù)據(jù)庫(kù)。
配置以下數(shù)據(jù)庫(kù)信息,單擊確定。
所屬數(shù)據(jù)目錄:選擇所屬數(shù)據(jù)目錄。
數(shù)據(jù)庫(kù)名稱:輸入數(shù)據(jù)庫(kù)名稱。
數(shù)據(jù)庫(kù)描述:可選,輸入數(shù)據(jù)庫(kù)描述。
選擇路徑:輸入數(shù)據(jù)庫(kù)的位置。
創(chuàng)建數(shù)據(jù)表
創(chuàng)建完成數(shù)據(jù)庫(kù)后,單擊數(shù)據(jù)表頁(yè)簽,選擇目標(biāo)數(shù)據(jù)目錄和庫(kù)名,單擊新建數(shù)據(jù)表。
配置以下數(shù)據(jù)表信息,單擊確定。
數(shù)據(jù)表名稱:輸入數(shù)據(jù)表的名稱。
所屬數(shù)據(jù)目錄:選擇所屬數(shù)據(jù)目錄。
所屬數(shù)據(jù)庫(kù):選擇數(shù)據(jù)目錄下的數(shù)據(jù)庫(kù)。
數(shù)據(jù)表描述:可選,輸入數(shù)據(jù)表描述。
數(shù)據(jù)存儲(chǔ)位置:選擇數(shù)據(jù)表中數(shù)據(jù)存儲(chǔ)的位置。
格式與序列化:選擇數(shù)據(jù)表的數(shù)據(jù)格式和輸出格式。
分割符:可選,當(dāng)數(shù)據(jù)格式選擇CSV時(shí),選擇數(shù)據(jù)表的分隔符。
手動(dòng)定義數(shù)據(jù)表的普通列、分區(qū)列,指定列名稱、數(shù)據(jù)類型、描述等信息。
更多關(guān)于數(shù)據(jù)庫(kù)、數(shù)據(jù)表的操作,請(qǐng)參見(jiàn)數(shù)據(jù)庫(kù)表及函數(shù)。
元數(shù)據(jù)抽取
元數(shù)據(jù)抽取可以分析數(shù)據(jù)湖中特定格式的數(shù)據(jù),并自動(dòng)生成元數(shù)據(jù)信息。詳情請(qǐng)參見(jiàn)元數(shù)據(jù)抽取。
元數(shù)據(jù)遷移
元數(shù)據(jù)遷移可以快速地將Hive Metastore的元數(shù)據(jù)遷移到數(shù)據(jù)湖構(gòu)建(DLF)中。詳情請(qǐng)參見(jiàn)元數(shù)據(jù)遷移。
權(quán)限管理
數(shù)據(jù)湖構(gòu)建(DLF)的權(quán)限體系主要分為RAM權(quán)限和DLF數(shù)據(jù)權(quán)限控制兩大類。如果您要訪問(wèn)DLF的頁(yè)面或數(shù)據(jù),一般都需要通過(guò)這兩層權(quán)限校驗(yàn),才可以正確的訪問(wèn)到數(shù)據(jù)資源。
RAM權(quán)限:主要控制DLF所有OpenAPI的訪問(wèn)權(quán)限,決定RAM用戶是否可以訪問(wèn)某些DLF OpenAPI或頁(yè)面。詳情請(qǐng)參見(jiàn)權(quán)限說(shuō)明。
DLF數(shù)據(jù)權(quán)限:主要控制DLF內(nèi)部資源的訪問(wèn)和使用權(quán)限,包括數(shù)據(jù)庫(kù)、數(shù)據(jù)表、數(shù)據(jù)列、函數(shù)、數(shù)據(jù)目錄等,以及數(shù)據(jù)權(quán)限的操作權(quán)限。
數(shù)據(jù)權(quán)限詳細(xì)說(shuō)明,請(qǐng)參見(jiàn)數(shù)據(jù)權(quán)限概述。
數(shù)據(jù)授權(quán)相關(guān)的操作,請(qǐng)參見(jiàn)數(shù)據(jù)授權(quán)。
存儲(chǔ)概覽及優(yōu)化策略
存儲(chǔ)概覽不僅涵蓋存儲(chǔ)和元數(shù)據(jù)對(duì)象的基本信息,還包括存儲(chǔ)趨勢(shì)、存儲(chǔ)歸檔分布、表格式分布以及大小文件分布等信息,幫助您快速了解當(dāng)前存儲(chǔ)資源使用情況及潛在問(wèn)題,從而采取措施進(jìn)行優(yōu)化。
最佳實(shí)踐
DLF提供了數(shù)據(jù)湖內(nèi)統(tǒng)一的元數(shù)據(jù)管理和權(quán)限管理功能。通過(guò)與E-MapReduce、Flink和MaxCompute結(jié)合,DLF支持實(shí)現(xiàn)高效的元數(shù)據(jù)抽取、遷移以及數(shù)據(jù)入湖解決方案。