通過創建ClickHouse數據源能夠實現Dataphin讀取ClickHouse的業務數據或向ClickHouse寫入數據。本文為您介紹如何創建ClickHouse數據源。
前提條件
若您需在Dataphin中創建基于阿里云產品的數據源,創建數據源前,需確保Dataphin的IP已添加至數據庫白名單(或安全組)中,使數據源與Dataphin網絡互通。具體操作,請參見數據源白名單配置。
背景信息
如果您使用的是數據庫ClickHouse,引入ClickHouse的業務數據至Dataphin中或將Dataphin數據導出至ClickHouse的場景中,您需要先完成ClickHouse數據源的創建。阿里云數據庫ClickHouse的更多信息,請參見云數據庫 ClickHouse。
權限說明
僅支持擁有新建數據源權限點的自定義全局角色和超級管理員、數據源管理員、板塊架構師、項目管理員系統角色創建數據源。
操作步驟
在Dataphin首頁,在頂部菜單欄選擇管理中心 > 數據源管理。
在數據源頁面,單擊+新建數據源。
在新建數據源對話框的關系型數據庫區域,選擇ClickHouse。
如果您最近使用過ClickHouse,也可以在最近使用區域選擇ClickHouse。同時,您也可以在搜索框中,輸入ClickHouse的關鍵詞,快速搜索。
在新建ClickHouse數據源對話框中,配置連接數據源參數。
配置數據源的基本信息。
參數
說明
數據源名稱
填寫數據源名稱。命名規則如下:
只能包含中文、英文字母大小寫、數字、下劃線(_)或短劃線(-)。
長度不能超過64個字符。
數據源編碼
配置數據源編碼后,您可以在Flink_SQL任務或使用Dataphin JDBC客戶端中,通過
數據源編碼.表名稱
或數據源編碼.schema.表名稱
的格式直接訪問Dataphin數據源表,實現快捷消費;如果需要根據任務執行環境自動切換數據源,請通過${數據源編碼}.table
或${數據源編碼}.schema.table
的變量格式訪問。更多信息,請參見Flink_SQL任務開發方式。重要數據源編碼配置成功后不支持修改。
數據源描述
對數據源的簡單描述。不得超過128個字符。
數據源配置
選擇需要配置的數據源:
如果業務數據源區分生產數據源和開發數據源,則選擇生產+開發數據源。
如果業務數據源不區分生產數據源和開發數據源,則選擇生產數據源。
標簽
您可根據標簽給數據源進行分類打標,如何創建標簽,請參見管理數據源標簽。
配置數據源與Dataphin的連接參數。
若您的數據源配置選擇生產+開發數據源,則需配置生產+開發數據源的連接信息。如果您的數據源配置為生產數據源,僅需配置生產數據源的連接信息。
說明通常情況下,生產數據源和開發數據源需配置為非同一個數據源,以實現開發數據源與生產數據源的環境隔離,降低開發數據源對生產數據源的影響。但Dataphin也支持配置成同一個數據源,即相同參數值。
配置方式可選擇JDBC URL或主機兩種方式,默認選擇為JDBC URL。
JDBC URL配置方式
參數
描述
JDBC URL
ClickHouse的連接地址,JDBC URL格式為
jdbc:clickhouse://host:port/dbname
。若您使用阿里云數據庫ClickHouse,您可以在ClickHouse控制臺的集群信息頁面,查看鏈接地址和端口信息;連接集群后,在SQL Console中執行
show Databases
命令,可查看數據庫名稱。用戶名、密碼
訪問ClickHouse實例的用戶名和密碼。
類型
支持公網數據庫、阿里云數據庫與ECS(VPC)自建數據庫,您可根據您數據庫類型及業務情況進行選擇與配置:
公網數據庫:通過公網可直接訪問的數據庫。
阿里云數據庫:在阿里云購買的數據庫。支持VPC網絡或公網IP進行訪問。VPC網絡訪問數據庫需配置以下信息:
區域:數據庫所在Region。僅支持Dataphin實例相同區域的數據庫。如您的Dataphin實例位于華東2(上海),僅支持選擇華東2(上海)區域。
VPC ID:填寫數據庫所在VPC網絡的VPC ID。您可登錄專有網絡控制臺進行查看。如下圖所示:
VPC實例ID:填寫數據庫的專有網絡實例ID,即
VpcCloudInstanceId
。您可以通過調用DescribeDBInstances API進行獲取。更多信息,請參見DescribeDBClusters - 查詢集群列表。
ECS(VPC)自建數據庫:您在阿里云ECS上自建的數據庫。支持VPC方式訪問。VPC網絡訪問數據庫需配置以下信息:
主機配置方式
主機配置方式
參數
描述
服務器地址
輸入服務器的IP地址和端口號。
支持單擊+新增來添加多組IP地址和端口號,單擊圖標刪除多余的IP地址和端口號,但需至少保留一組。
dbname
輸入數據庫名稱。
參數配置
參數
描述
參數
參數名稱:僅支持選擇已有參數名稱。
參數值:當已選擇參數名稱時,參數值為必填。僅支持英文字母大小寫、數字、半角句號(.)、下劃線(_)和短劃線(-),長度不超過256個字符。
說明支持通過單擊+添加參數新增多個參數,單擊圖標刪除多余參數,至多可添加30個參數。
用戶名、密碼
訪問ClickHouse實例的用戶名和密碼。
說明當配置方式選擇為主機并完成新建數據源后,若需要切換為JDBC URL配置方式,系統會將服務器的IP地址和端口號拼接為JDBC URL進行填充。
配置數據源的高級設置。
參數
說明
connection_timeout
數據庫的connection_timeout時長(單位:毫秒),默認900000毫秒(15分鐘)。
說明若您在JDBC URL中帶有connection_timeout配置,則connection_timeout為JDBC URL中配置的超時時間。
Dataphin V3.11版本之前的創建數據源,connection_timeout默認為
-1
,表示無超時限制。
socket_timeout
數據庫的socket_timeout時長(單位:毫秒),默認1800000毫秒(30分鐘)。
說明若您在JDBC URL中帶有socket_timeout配置,則socket_timeout為JDBC URL中配置的超時時間。
Dataphin V3.11版本之前的創建數據源,socket_timeout默認為
-1
,表示無超時限制。
連接重試次數
數據庫連接超時,將自動重試連接直到完成設定的重試次數。若達最大重試次數仍未連接成功,則連接失敗。
說明默認重試次數為1次,支持配置0~10之間參數。
連接重試次數將默認應用于離線集成任務與全域質量(需開通資產質量功能模塊),離線集成任務中支持單獨配置任務級別的重試次數。
說明重復參數的取值規則:
若某一參數同時存在于JDBC URL、高級設置的參數和主機配置方式的參數配置中時,則以JDBC URL中該參數的取值為準。
若某一參數同時存在于JDBC URL和高級設置的參數中時,則以JDBC URL中該參數的取值為準。
若某一參數同時存在于高級設置的參數和主機配置方式的參數配置中時,則以高級設置的參數配置中該參數的取值為準。
單擊測試連接,測試數據源是否可以和Dataphin正常的連通。
重要如果連接測試失敗,您可以根據網絡連通常見問題進行排查。詳細內容,請參見網絡連通解決方案。
測試成功后,單擊確定,完成ClickHouse數據源的創建。