使用星環(huán)TDH作為元倉計算引擎進(jìn)行元倉初始化
Dataphin元數(shù)據(jù)倉庫(簡稱:元倉),是統(tǒng)一管理Dataphin內(nèi)部業(yè)務(wù)元數(shù)據(jù)和相應(yīng)計算引擎元數(shù)據(jù)的數(shù)據(jù)倉庫,存在于Dataphin元倉租戶中(OPS租戶)的一個Dataphin項目空間中,由一系列的周期性數(shù)據(jù)集成節(jié)點(diǎn)、SQL腳本節(jié)點(diǎn)、Shell節(jié)點(diǎn)組成。元倉初始化即配置Dataphin系統(tǒng)的計算引擎類型并初始化元數(shù)據(jù)的過程。本文將為您介紹如何使用星環(huán)TDH作為元倉計算引擎進(jìn)行元倉初始化。
前提條件
以星環(huán)TDH作為元倉時,需開放元數(shù)據(jù)庫或提供Hive Metastore服務(wù),用于獲取元數(shù)據(jù)。
以TDH Inceptor作為元倉,或元倉初始化中的元數(shù)據(jù)庫配置使用TDH Incepor作為元數(shù)據(jù)庫獲取方式時,需要具備以下條件:
已在TDH Inceptor中創(chuàng)建dataphin_meta的項目。
元倉初始化中TDH Inceptor配置的用戶,需具備dataphin_meta項目的寫入表及創(chuàng)建表的權(quán)限。
客戶引擎的賬號需要有對dataphin_meta項目的物化表有讀取的權(quán)限。
背景信息
Dataphin支持通過直連元數(shù)據(jù)庫或Hive Metastore Service服務(wù)方式獲取元數(shù)據(jù)。各方式獲取元數(shù)據(jù)優(yōu)劣勢對比詳情如下:
元數(shù)據(jù)獲取方式 | 優(yōu)勢與劣勢 |
直連元數(shù)據(jù)庫 | 高性能:直接連接底層的元數(shù)據(jù)庫,省去了中間的HMS服務(wù)環(huán)節(jié),客戶端在獲取meta(元數(shù)據(jù))時性能更好,同時能夠減少網(wǎng)絡(luò)傳輸上的耗時。 更開放:通過HMS服務(wù)查詢metastore,只能使用metastoreclient提供的幾種方法進(jìn)行查詢。而直接連接元數(shù)據(jù)庫后,可以自由使用SQL進(jìn)行查詢。 |
Hive Metastore Service服務(wù) | 更安全:可以為metastore開啟kerberos認(rèn)證,客戶端需要進(jìn)行kerberos認(rèn)證才能讀取到metastore中的數(shù)據(jù)。 更靈活:客戶端僅感知到HMS服務(wù),并不能感知到后臺的元數(shù)據(jù)庫。因此底層的原數(shù)據(jù)庫可以隨時進(jìn)行切換,而對應(yīng)的客戶端無需變更。 |
使用限制
當(dāng)選擇MySQL元數(shù)據(jù)庫、Inceptor元數(shù)據(jù)庫或HMS方式獲取元數(shù)據(jù)時,獲取到的元數(shù)據(jù)信息會有部分缺失或不準(zhǔn)確,具體如下。
通過MySQL元數(shù)據(jù)庫或HMS獲取元數(shù)據(jù)信息時,不支持獲取:
資產(chǎn)全景、數(shù)據(jù)板塊、項目的數(shù)據(jù)量信息。
資產(chǎn)目錄中表數(shù)據(jù)量、分區(qū)數(shù)據(jù)量、分區(qū)記錄數(shù)。
資源治理的存儲相關(guān)的指標(biāo)信息。
元倉共享模型中dim_dataphin_table及dim_dataphin_partition的數(shù)據(jù)量和記錄數(shù)。
通過TDH Inceptor System庫獲取元數(shù)據(jù)信息時,不支持獲取:
資產(chǎn)目錄的分區(qū)記錄數(shù)信息。
元倉共享模型中dim_dataphin_table及dim_dataphin_partition的記錄數(shù)。
使用TDH Inceptor作為元倉計算引擎時,Dataphin不支持自定義函數(shù)。
由于添加同名的JAR包用于UDF注冊,可能會導(dǎo)致Inceptor服務(wù)停止響應(yīng)且無法成功重啟;添加不同名的JAR包但包含相同的class文件,可能導(dǎo)致UDF執(zhí)行結(jié)果不可預(yù)測,因此在使用TDH Inceptor作為元倉計算引擎時,Dataphin不支持自定義函數(shù)。若需添加自定義函數(shù),您可通過TDH Inceptor的客戶端進(jìn)行添加,并需確保集群中自定義函數(shù)(UDF)名稱的唯一性和類名的一致性。
權(quán)限說明
系統(tǒng)僅支持元倉租戶超級管理員或系統(tǒng)管理員角色的賬號初始化系統(tǒng)。
請妥善保管元倉租戶超級管理員或系統(tǒng)管理員的賬號和密碼。同時,元倉租戶超級管理員賬號登錄系統(tǒng)后,請謹(jǐn)慎操作。
操作步驟
在Dataphin首頁的頂部菜單欄中,選擇管理中心 > 系統(tǒng)設(shè)置。
在左側(cè)導(dǎo)航欄選擇系統(tǒng)運(yùn)維 > 元倉設(shè)置。
在元數(shù)據(jù)部署配置向?qū)ы撁妫瑔螕?b data-tag="uicontrol" id="1c066300ebfc8" class="uicontrol">開始。
在選擇初始化引擎類型頁面,選擇星環(huán)TDH 6.x或星環(huán)TDH 9.3.x引擎類型。
重要當(dāng)切換成不兼容的計算引擎時,會導(dǎo)致治理功能不可用。若元倉已經(jīng)初始化,則默認(rèn)選擇上次初始化成功的元倉。
單擊下一步。
在參數(shù)配置頁面,配置以下參數(shù)(星環(huán)TDH 6.x與星環(huán)TDH 9.3.x所需配置的參數(shù)相同)。
區(qū)域
參數(shù)
描述
集群配置
NameNode
NameNode用于管理HDFS中的文件系統(tǒng)名稱空間及外部客戶機(jī)的訪問權(quán)限。
單擊新增。
在新增NameNode對話框,填寫NameNode的Hostname名及端口號,單擊確定。
填寫后自動生成對應(yīng)的格式,例如
host=start,webUiPort=50070,ipcPort=8020
。
配置文件
上傳集群配置文件,用于配置集群參數(shù)。系統(tǒng)支持上傳core-site.xml、hdfs-site.xml等集群配置文件。
History Log
配置集群的日志路徑。例如
tmp/hadoop-yarn/staging/history/done
。認(rèn)證方式
支持無認(rèn)證和Kerberos認(rèn)證方式。Kerberos是一種基于對稱密鑰技術(shù)的身份認(rèn)證協(xié)議,常用于集群各組件間的認(rèn)證。開啟Kerberos能夠提升集群的安全性。
如果您選擇開啟Kerberos認(rèn)證,需配置Kerberos配置方式和HDFS。
Kerberos配置方式
KDC Server:需輸入KDC統(tǒng)一服務(wù)地址,輔助完成Kerberos認(rèn)證。支持配置多個地址,使用英文逗號(,)分隔。
krb5文件配置:需要上傳Krb5文件進(jìn)行Kerberos認(rèn)證。
HDFS Keytab File:需上傳HDFS Keytab文件。
HDFS Principal:輸入Kerberos認(rèn)證的Principal名。例如
XXXX/hadoopclient@xxx.xxx
。
Inceptor配置
JDBC URL
填寫連接Inceptor的JDBC URL。
認(rèn)證方式
選擇Inceptor的認(rèn)證文件。您需要根據(jù)引擎情況進(jìn)行選擇,支持選擇無認(rèn)證、LDAP、Kerberos:
無認(rèn)證:即沒有認(rèn)證。需配置訪問Inceptor的用戶名和密碼。
LDAP:LDAP認(rèn)證。需配置訪問Inceptor的用戶名和密碼。
Kerberos:集群的認(rèn)證方式需為Kerberos。Kerberos任務(wù)需要上傳Keytab File認(rèn)證文件及配置Principal地址。
Keytab File:上傳Keytab File文件進(jìn)行Kerberos認(rèn)證。
Principal:Kerberos認(rèn)證的Principal名。
元數(shù)據(jù)庫配置
元數(shù)據(jù)獲取方式
支持元數(shù)據(jù)庫和HMS(Hive Metastore Serivce)方式獲取元數(shù)據(jù)。使用HMS方式獲取元數(shù)據(jù)庫,若集群配置認(rèn)證方式為Kerberos,需上傳Keytab File文件和填寫Principal。
Keytab File:Hive metastore的Kerberos認(rèn)證的Keytabl文件。
Principal:Hive metastore的Kerberos認(rèn)證的Principal。
數(shù)據(jù)庫類型
元數(shù)據(jù)庫方式獲取元數(shù)據(jù),需配置該參數(shù)。系統(tǒng)支持MySQL、PostgreSQL、Inceptor。
MySQL:可選擇的版本為5.1.43、5.6/5.7和8.0版本。
Inceptor:支持無認(rèn)證、LDAP、Kerberos認(rèn)證方式。
JDBC URL
填寫目標(biāo)數(shù)據(jù)庫JDBC的連接地址。例如:
MySQL數(shù)據(jù)庫的連接地址格式為
jdbc:mysql://host:port/dbname
。Inceptor數(shù)據(jù)庫的連接地址格式為
jdbc:hive2://host:port/dbname
。用戶名、密碼
目標(biāo)數(shù)據(jù)庫的用戶名和密碼。若Inceptor數(shù)據(jù)庫認(rèn)證方式為無認(rèn)證僅需填寫用戶名;Kerberos認(rèn)證方式需上傳Keytab File文件和填寫Principal。
元數(shù)據(jù)生產(chǎn)項目
Meta Project
用于元數(shù)據(jù)生產(chǎn),加工的邏輯項目空間。推薦配置為dataphin_meta,重新初始化時請保持名稱不變,否則初始化失敗。
單擊測試連接。連接測試通過后,單擊下一步。
在初始化頁面,單擊開始。
說明初始化系統(tǒng)約15分鐘左右,請您耐心等待。
頁面提示執(zhí)行成功后,單擊完成,即可完成配置。
后續(xù)步驟
完成系統(tǒng)的元數(shù)據(jù)初始化后,即可設(shè)置Dataphin實(shí)例的計算引擎。設(shè)置方法請參見計算設(shè)置概述。