云數據庫HBase增強版提供LTS服務能夠支持各種HBase版本之間相互遷移和實時同步,并且支持同步RDS、Loghub的實時數據到HBase,DataX是阿里巴巴集團內被廣泛使用的離線數據同步工具,實現MySQL、Oracle、SqlServer、PostgreSQL、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各種異構數據源之間高效的數據同步功能。
前提條件
注意事項
當前方式僅支持通過專有網絡訪問HBase集群。
重要如果您想要通過公網訪問,在執行本文操作前,需要先升級SDK。具體操作,請參見升級HBase Java SDK。
如果應用部署在ECS實例,通過專有網絡訪問HBase集群前,需要確保HBase集群和ECS實例滿足以下條件,以保證網絡的連通性。
所在地域相同,并建議所在可用區相同(以減少網絡延時)。
ECS實例與HBase集群屬于同一專有網絡。
使用DataX進行數據同步
使用DataX進行數據同步有兩種方法:
使用阿里云DataWorks的數據集成服務配置DataX任務(推薦使用該方法)。
使用開源DataX配置同步任務。
使用阿里云DataWorks配置DataX任務
創建工作空間,詳情請參見創建工作空間。
創建資源組,資源組類型和說明如下表。推薦使用獨享資源組和自定義資源組的方式訪問HBase。
資源組類型
配置文檔
特點
注意事項
獨享資源組
獨享資源組的機器由DataWorks自動買出,運維完全托管于系統,您無需擔心機器服務和可用性等問題。
獨享資源不支持跨地域使用。例如,華東2(上海)地域的獨享資源,只能給華東2(上海)地域的工作空間使用(無法綁定其他區域的VPC),并且獨享資源組不能跨vSwitch訪問HBase集群。
自定義資源組
僅DataWorks企業版及以上版本支持自定義資源組。自定義資源組的ECS機器由用戶自己買出,用戶可以將ECS買在HBase的VPC內,從而用內網訪問HBase,否則只能用外網訪問。
自定義資源組的機器完全可控、可登錄訪問,但是需要自行安裝/運維/升級DataX版本。
默認資源組
無
默認資源組機器只能通過公網訪問HBase。
公網訪問HBase會在DataWorks產生額外費用。
配置網絡。
創建同步任務并綁定資源組。
創建同步任務,具體方法參見通過向導模式配置離線同步任務。
修改插件配置,讀寫HBase分別使用HBase Writer和HBase Reader插件。
相關的配置可以參考具體插件的幫助。但是HBase增強版"hbaseconfig"部分不再使用Zookeeper.quorum這個參數連接,而是使用增強版特有的endpoint形式,配置示例如下:
"hbaseConfig": { "hbase.client.connection.impl" : "com.alibaba.hbase.client.AliHBaseUEConnection", "hbase.client.endpoint" : "host:30020", "hbase.client.username" : "testuser", "hbase.client.password" : "password" }
說明hbase.client.connection.impl:固定配置不需要修改。
hbase.client.endpoint:用戶控制臺上提供的Java API訪問地址,用戶可以參考連接集群獲得。
hbase.client.username和password:HBase增強版中用戶自己創建的用戶名和密碼(默認均為root),用戶必須保證提供的用戶有讀寫HBase增強版中表的權限(默認提供的root用戶已經具有讀寫所有表的權限)。
HBase版本請選擇1.1.x。