本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
數據目錄(Catalog)是數據湖構建(Data Lake Formation)的元數據最上層實體,它可以包含多個數據庫。本文為您介紹數據目錄(Catalog)的基本操作。
適用場景
主要適用于元數據隔離的場景,比如多個E-MapReduce集群,每個集群綁定不同的Catalog,每個EMR集群間元數據互不可見。
基本操作
新建數據目錄
登錄數據湖構建控制臺。
在左側菜單欄,選擇
。單擊數據目錄頁簽,單擊新建數據目錄。
在輸入框中輸入以下內容,單擊確定。
目錄ID:必選,唯一標識,不可重名。
描述:可選,輸入描述信息。
目錄路徑:可選,輸入默認的存儲路徑,目前僅支持OSS路徑。
查看數據目錄
在左側菜單欄,選擇
。單擊數據目錄頁簽,可查看Catalog列表信息。
修改數據目錄
在左側菜單欄,選擇
。單擊數據目錄頁簽。
在數據目錄列表頁面,單擊操作列的編輯。
在輸入框中修改以下內容,單擊確定。
描述:可選,輸入描述信息。
目錄路徑:可選,輸入默認的存儲路徑,目前僅支持OSS路徑。
刪除數據目錄
請您謹慎選擇刪除,刪除后,數據將不可恢復!
在左側菜單欄,選擇
。單擊數據目錄頁簽。
在數據目錄列表頁面,單擊操作列的刪除。
在彈出的確認框中,單擊刪除,完成Catalog刪除。
與計算引擎的適配操作
如何修改E-MapReduce集群的數據目錄
修改E-MapReduce集群綁定的DLF Catalog ID后,該集群將會指向新的Catalog ID,該變更會導致對原Catalog中的數據庫、表等操作以及運行中的作業失效。請充分考慮影響后,再進行切換。
Hive引擎適配
在Hive服務的core-site.xml文件中,新增以下配置項。具體操作,請參見添加配置項。
Key
Value
dlf.catalog.id
DLF數據目錄ID。
生效配置。
單擊保存。保存完成后,單擊部署客戶端配置。
在彈出的對話框中,輸入執行原因,單擊確定。
重啟Hive服務。
在Hive服務配置頁面,單擊
。在彈出的對話框中,輸入執行原因,單擊確定。
重啟成功后,Hive狀態變為良好,則Catalog ID修改完成。
Spark引擎適配
修改Spark服務的hive-site.xml文件。操作步驟,請參見Hive引擎適配。
EMR 5.6.0、3.40.0及之前版本,則無需單獨對Spark做此配置修改,它使用Hive的配置,僅需修改Hive配置即可。
Presto引擎適配
修改Presto服務的hive.properties文件。操作步驟,請參見Hive引擎適配。
僅EMR 5.8.0、3.42.0及之后版本支持該功能。
Impala引擎適配
無需單獨修改Impala配置,它使用Hive的配置,僅需修改Hive配置即可。