日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

從自建HDFS遷移數據

本章介紹如何將在開源HDFS的數據平滑地遷移到LindormDFS(Lindorm底層存儲,LDFS)。

背景介紹

在某些場景下面,我們需要從自建的Hadoop中存儲的數據遷移到LindormDFS當中。

適用范圍

阿里云ECS自建Hadoop集群中的數據遷移到LindormDFS。

準備工作

  • 開通LindormDFS,詳情請參見開通指南

  • 修改Hadoop 配置信息,詳情請參見使用開源HDFS客戶端訪問

  • 檢查自建的Hadoop集群和LindormDFS的連通性。

    在自建的Hadoop集群上執行以下命令測試集群的連通性。

    hadoop fs -ls hdfs://${實例Id}/

    其中${實例Id}請根據您的實際情況進行修改。如果可以正常查看到LindormDFS的文件列表,則表示集群連通成功。

  • 準備遷移工具

    您可以通過Hadoop社區標準的Distcp工具實現全量或增量的HDFS數據遷移,詳細的Distcp工具使用說明請參見Hadoop Distcp 工具官方說明文檔

自建Hadoop集群數據遷移

阿里云ECS自建Hadoop集群和LindormDFS處于相同VPC網絡環境時,可以直接通過VPC網絡遷移數據到LindormDFS。遷移命令如下所示:

hadoop distcp  -m 1000 -bandwidth 30 hdfs://oldcluster:8020/user/hive/warehouse  hdfs://${實例Id}/user/hive/warehouse

其中oldcluster為原自建Hadoop集群namenode的IP或者域名,${實例Id}為LindormDFS的實例ID,請根據您的實際情況進行修改。

常見問題

  • 整體遷移速度受Hadoop集群與文件存儲HDFS之間的帶寬、集群規模影響。如果遷移數據量大,建議先嘗試遷移幾個目錄評估下整體時間。如果只能在指定時間段內遷移數據,可以將目錄切分為幾個小目錄,依次遷移。

  • 一般全量數據同步時,需要一個短暫的業務停寫過程,用來啟用雙寫雙算或直接將業務切換到新集群上。