本章介紹如何將在開源HDFS的數據平滑地遷移到LindormDFS(Lindorm底層存儲,LDFS)。
背景介紹
在某些場景下面,我們需要從自建的Hadoop中存儲的數據遷移到LindormDFS當中。
適用范圍
阿里云ECS自建Hadoop集群中的數據遷移到LindormDFS。
準備工作
開通LindormDFS,詳情請參見開通指南 。
修改Hadoop 配置信息,詳情請參見使用開源HDFS客戶端訪問。
檢查自建的Hadoop集群和LindormDFS的連通性。
在自建的Hadoop集群上執行以下命令測試集群的連通性。
hadoop fs -ls hdfs://${實例Id}/
其中${實例Id}請根據您的實際情況進行修改。如果可以正常查看到LindormDFS的文件列表,則表示集群連通成功。
準備遷移工具
您可以通過Hadoop社區標準的Distcp工具實現全量或增量的HDFS數據遷移,詳細的Distcp工具使用說明請參見Hadoop Distcp 工具官方說明文檔。
自建Hadoop集群數據遷移
阿里云ECS自建Hadoop集群和LindormDFS處于相同VPC網絡環境時,可以直接通過VPC網絡遷移數據到LindormDFS。遷移命令如下所示:
hadoop distcp -m 1000 -bandwidth 30 hdfs://oldcluster:8020/user/hive/warehouse hdfs://${實例Id}/user/hive/warehouse
其中oldcluster為原自建Hadoop集群namenode的IP或者域名,${實例Id}為LindormDFS的實例ID,請根據您的實際情況進行修改。
常見問題
整體遷移速度受Hadoop集群與文件存儲HDFS之間的帶寬、集群規模影響。如果遷移數據量大,建議先嘗試遷移幾個目錄評估下整體時間。如果只能在指定時間段內遷移數據,可以將目錄切分為幾個小目錄,依次遷移。
一般全量數據同步時,需要一個短暫的業務停寫過程,用來啟用雙寫雙算或直接將業務切換到新集群上。
文檔內容是否對您有幫助?