創(chuàng)建IMPALA數(shù)據(jù)源
通過創(chuàng)建Impala數(shù)據(jù)源能夠?qū)崿F(xiàn)Dataphin讀取Impala的業(yè)務(wù)數(shù)據(jù)或向Impala寫入數(shù)據(jù)。本文為您介紹如何創(chuàng)建Impala數(shù)據(jù)源。
背景信息
Impala是用于處理存儲(chǔ)在Hadoop集群中大量數(shù)據(jù)的SQL查詢引擎。如果您使用的是Impala,在導(dǎo)出Dataphin數(shù)據(jù)至Impala,您需要先完成Impala數(shù)據(jù)源的創(chuàng)建。更多Impala信息,請(qǐng)參見Impala官網(wǎng)。
權(quán)限管理
僅支持具備新建數(shù)據(jù)源權(quán)限點(diǎn)的自定義全局角色和超級(jí)管理員、數(shù)據(jù)源管理員、板塊架構(gòu)師、項(xiàng)目管理員角色創(chuàng)建數(shù)據(jù)源。
使用限制
Dataphin的IMPALA數(shù)據(jù)源的數(shù)據(jù)集成使用JDBC的方式進(jìn)行集成,因此性能相較于Hive較差,若您集成的表為非Kudu表,您可使用Hive數(shù)據(jù)源及輸入輸出組件集成。
操作步驟
在Dataphin首頁(yè),單擊頂部菜單欄管理中心 > 數(shù)據(jù)源管理。
在數(shù)據(jù)源頁(yè)面,單擊+新建數(shù)據(jù)源。
在新建數(shù)據(jù)源對(duì)話框的大數(shù)據(jù)存儲(chǔ)區(qū)域,選擇IMPALA。
如果您最近使用過IMPALA,也可以在最近使用區(qū)域選擇IMPALA。同時(shí),您也可以在搜索框中,輸入IMPALA的關(guān)鍵詞,快速篩選。
在新建IMPALA數(shù)據(jù)源對(duì)話框中,配置連接數(shù)據(jù)源參數(shù)。
配置數(shù)據(jù)源的基本信息。
參數(shù)
描述
數(shù)據(jù)源名稱
命名規(guī)則如下:
只能包含中文、英文字母大小寫、數(shù)字、下劃線(_)或短劃線(-)。
長(zhǎng)度不能超過64字符。
數(shù)據(jù)源編碼
配置數(shù)據(jù)源編碼后,您可以在Flink_SQL任務(wù)中通過
數(shù)據(jù)源編碼.表名稱
或數(shù)據(jù)源編碼.schema.表名稱
的格式引用數(shù)據(jù)源中的表;如果需要根據(jù)所處環(huán)境自動(dòng)訪問對(duì)應(yīng)環(huán)境的數(shù)據(jù)源,請(qǐng)通過${數(shù)據(jù)源編碼}.table
或${數(shù)據(jù)源編碼}.schema.table
的變量格式訪問。更多信息,請(qǐng)參見Flink_SQL任務(wù)開發(fā)方式。重要目前僅支持MySQL、Hologres、MaxCompute數(shù)據(jù)源。
數(shù)據(jù)源編碼配置成功后不支持修改。
數(shù)據(jù)源描述
對(duì)數(shù)據(jù)源的簡(jiǎn)單描述。不得超過128個(gè)字符。
數(shù)據(jù)源配置
選擇需要配置的數(shù)據(jù)源:
如果業(yè)務(wù)數(shù)據(jù)源區(qū)分生產(chǎn)數(shù)據(jù)源和開發(fā)數(shù)據(jù)源,則選擇生產(chǎn)+開發(fā)數(shù)據(jù)源。
如果業(yè)務(wù)數(shù)據(jù)源不區(qū)分生產(chǎn)數(shù)據(jù)源和開發(fā)數(shù)據(jù)源,則選擇生產(chǎn)數(shù)據(jù)源。
標(biāo)簽
您可根據(jù)標(biāo)簽給數(shù)據(jù)源進(jìn)行分類打標(biāo),如何創(chuàng)建標(biāo)簽,請(qǐng)參見管理數(shù)據(jù)源標(biāo)簽。
配置數(shù)據(jù)源與Dataphin的連接參數(shù)。
若您的數(shù)據(jù)源配置選擇生產(chǎn)+開發(fā)數(shù)據(jù)源,則需配置生產(chǎn)+開發(fā)數(shù)據(jù)源的連接信息。如果您的數(shù)據(jù)源配置為生產(chǎn)數(shù)據(jù)源,僅需配置生產(chǎn)數(shù)據(jù)源的連接信息。
說明通常情況下,生產(chǎn)數(shù)據(jù)源和開發(fā)數(shù)據(jù)源需配置非同一個(gè)數(shù)據(jù)源,以使開發(fā)數(shù)據(jù)源與生產(chǎn)數(shù)據(jù)源的環(huán)境隔離,降低開發(fā)數(shù)據(jù)源對(duì)生產(chǎn)數(shù)據(jù)源的影響。但Dataphin也支持配置成同一個(gè)數(shù)據(jù)源,即相同參數(shù)值。
參數(shù)
描述
JDBC URL
鏈接地址的格式為
jdbc:impala//host:port/dbname
。例如,jdbc:impala//192.168.*.1:5433/dataphin
。Kerberos
Kerberos是一種基于對(duì)稱密鑰技術(shù)的身份認(rèn)證協(xié)議:
Hadoop集群有Kerberos認(rèn)證,則需要開啟Kerberos。
Hadoop集群沒有Kerberos認(rèn)證,則無需開啟Kerberos。
Krb5文件/KDC Server、Keytab File、Principal
開啟Kerberos后,需要配置參數(shù)如下:
Krb5文件/KDC Server:需要上傳包含Kerberos認(rèn)證域名的Krb5文件、配置KDC服務(wù)器地址,輔助完成Kerberos認(rèn)證。
說明支持配置多個(gè)KDC Server服務(wù)地址,使用英文逗號(hào)
,
分割。Keytab File:上傳登錄Krb5文件域名或KDC服務(wù)器地址的賬號(hào)和密碼的文件。
Principal:配置Keytab File文件對(duì)應(yīng)的Kerberos認(rèn)證用戶名。
用戶名、密碼
如果您沒有開啟Kerberos,則需要配置訪問Impala實(shí)例的用戶名和密碼。
配置數(shù)據(jù)源元數(shù)據(jù)庫(kù)參數(shù)。
MySQL:格式為
jdbc:mysql://host[,failoverhost...]port/dbname [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...
。PostgreSQL:格式為
jdbc:postgresql://host:port/dbname
。配置數(shù)據(jù)源與Dataphin的高級(jí)設(shè)置。
參數(shù)
描述
連接重試次數(shù)
數(shù)據(jù)庫(kù)連接超時(shí),將自動(dòng)重試連接直到完成設(shè)定的重試次數(shù)。若達(dá)到最大重試次數(shù)仍未連接成功,則連接失敗。
說明默認(rèn)重試次數(shù)為1次,支持配置0~10之間參數(shù)。
連接重試次數(shù)將默認(rèn)應(yīng)用于離線集成任務(wù)與全域質(zhì)量(需開通資產(chǎn)質(zhì)量功能模塊),離線集成任務(wù)中支持單獨(dú)配置任務(wù)級(jí)別的重試次數(shù)。
參數(shù)
描述
數(shù)據(jù)庫(kù)類型
請(qǐng)根據(jù)集群中使用的元數(shù)據(jù)庫(kù)類型,選擇數(shù)據(jù)庫(kù)類型。Dataphin支持選擇MySQL和PostgreSQL。
JDBC URL
填寫對(duì)應(yīng)元數(shù)據(jù)庫(kù)的連接地址:
用戶名、密碼
填寫元數(shù)據(jù)庫(kù)的用戶名和密碼。
單擊測(cè)試連接,測(cè)試數(shù)據(jù)源是否可以和Dataphin進(jìn)行正常的連通。
重要如果連接測(cè)試失敗,您可以根據(jù)網(wǎng)絡(luò)連通常見問題進(jìn)行排查。詳細(xì)內(nèi)容,請(qǐng)參見網(wǎng)絡(luò)連通解決方案。
測(cè)試成功后,單擊確定,完成IMPALA數(shù)據(jù)源的創(chuàng)建。