遷移Hive數據
通過Catalog、X2Doris、DataWorks和OSS Load,都可以將Hive數據遷移到云數據庫 SelectDB 版。您可依據遷移的數據量和業務場景,選擇合適的方式完成數據遷移。本文為您介紹Hive的離線數據遷移到云數據庫 SelectDB 版的各個方式以及方式選擇規則。
方式選擇
根據不同的業務場景,選擇合適您的遷移方式。具體的方式選擇可以參考如下規則:
方式 | 適用場景 | 推薦原因 | 操作步驟 |
Catalog | 數據存儲在阿里云平臺。 說明 包括阿里云EMR集群等場景。 |
| |
OSS Load | 數據未存儲在阿里云平臺。 | 可避免遷移使用的流量費用。 說明 通過OSSLoad從對象存儲中將數據遷移到SelectDB。這個過程使用內網流量進行數據遷移,可避免流量費用。 | |
DataWorks | 數據由DataWorks托管,或者DataWorks作為數據開發平臺。 | 遷移使用可視化平臺,簡單易用。 | |
X2Doris |
|
|
增量數據遷移說明
實際生產環境中,Hive數據主要分為離線數據和增量數據,由于Hive數據遷移到SelectDB,通常的使用場景是拷貝一份數據到數據倉庫進行查詢加速,因此對于增量數據的遷移,可以考慮以下方式:
在生產Hive數據時并行寫入一份數據到SelectDB。
通過周期性作業讀取Hive中的分區數據寫入SelectDB。
相關文檔
更多Hive詳情,請參見Hive數據源。