本文將幫助您快速部署和使用阿里云文件存儲 HDFS 版。您將完成創建文件存儲 HDFS 版文件系統并完成掛載操作。部署成功后,您就可以像在Hadoop分布式文件系統(Hadoop Distributed File System)中一樣管理和訪問數據。
前提條件
已開通文件存儲 HDFS 版服務。具體操作,請參見開通文件存儲HDFS版服務。
已購買ECS實例。更多信息,請參見選購ECS實例。
本文使用的ECS實例地域在華東1(杭州)地域。
已為ECS實例安裝JDK,且JDK版本不低于1.8。
已為ECS實例安裝Hadoop客戶端,建議您使用的Hadoop版本不低于2.7.2。Hadoop下載地址,請參見Hadoop Releases。
本文使用的Hadoop版本為Apache Hadoop 2.7.2。
操作視頻
步驟一:創建文件系統
您可以通過文件存儲 HDFS 版控制臺創建文件系統或調用CreateFileSystem創建文件系統。
登錄文件存儲HDFS版控制臺。
在頂部菜單欄選擇要創建文件系統實例的區域。例如華東1(杭州)。
在概覽頁面,單擊創建文件系統。
說明單個文件系統容量上限為1 EiB。
每個賬號在單個地域內最多可以創建3個文件系統。
在創建文件系統面板,配置如下必要參數。其他參數請您根據實際業務需求選擇或選用默認配置。
參數
說明
可用區
下拉選擇相應的可用區。
同一地域不同可用區之間文件系統與計算節點互通。若要獲取最高性能,請使用同一可用區內的文件系統與計算節點。
文件系統名稱
輸入想要創建的文件系統的名稱。文件系統命名規則如下:
全局唯一且不能為空字符串。
長度為6~64個字符。
支持英文字母,可包含數字、下劃線(_)和短劃線(-)。
協議類型
選擇HDFS協議。
存儲類型
選擇標準型。
文件系統容量(單位 GiB)
輸入您預期要配置的文件系統容量,防止使用超出預期的空間容量。配置的文件系統容量不用作計費依據。
說明只允許輸入大于等于1024的正整數來設置文件系統容量。默認值為:10240 GiB。
文件系統創建后,您還可以修改該文件系統容量。更多信息,請參見修改文件系統。
吞吐模式
選擇標準吞吐或預置吞吐,預置吞吐取值范圍為1~5120 MiB/s。請根據需求選擇。
單擊確定,完成文件系統的創建。
如果新創建的文件系統未在列表中顯示,請刷新此頁面。
說明初始情況下,每個阿里云賬號都會自動生成一個VPC默認權限組,允許同一VPC網絡下的任何IP地址通過該掛載點訪問文件系統。您也可以根據業務場景創建權限組。具體操作,請參見創建權限組和規則。
步驟二:創建掛載點
掛載點是文件存儲 HDFS 版文件系統在網絡環境中的連接點,文件系統必須通過掛載點傳輸數據。
返回文件存儲 HDFS 版控制臺,選擇 。
單擊剛創建的文件系統實例,選擇掛載點頁簽。
單擊添加掛載點。
在添加掛載點面板,配置如下參數。
配置完成后,單擊確定。
步驟三:掛載文件系統
在使用文件系統前,您還需要通過掛載點掛載文件存儲 HDFS 版文件系統。
連接ECS實例。連接方式,請參見連接ECS實例。
配置core-site.xml。
執行如下命令打開core-site.xml文件。
vim ${HADOOP_HOME}/etc/hadoop/core-site.xml
如果您尚未配置
${HADOOP_HOME}
,可以使用下面命令將您的Hadoop安裝目錄配置到該環境變量。export HADOOP_HOME=/your/hadoop/installation/directory
在core-site.xml文件中,配置如下信息。
<property> <name>fs.defaultFS</name> <value>dfs://f-xxxxxxxx.cn-xxxxx.dfs.aliyuncs.com:10290</value> </property> <property> <name>fs.dfs.impl</name> <value>com.alibaba.dfs.DistributedFileSystem</value> </property> <property> <name>fs.AbstractFileSystem.dfs.impl</name> <value>com.alibaba.dfs.DFS</value> </property>
其中,
f-xxxxxxxx.cn-xxxxx.dfs.aliyuncs.com
為文件存儲 HDFS 版掛載點地址,請根據實際情況替換。可選:調整core-site.xml配置,優化集群性能。具體方法,請參見性能優化最佳實踐。
將core-site.xml文件同步到所有節點上。
部署文件存儲 HDFS 版Java SDK。
下載最新的文件存儲 HDFS 版Java SDK。
將下載的文件存儲 HDFS 版Java SDK部署到HDFS組件的CLASSPATH路徑下。
cp aliyun-sdk-dfs-x.y.z.jar ${HADOOP_HOME}/share/hadoop/hdfs
將文件存儲 HDFS 版Java SDK同步到所有節點上。
執行以下命令,驗證掛載結果。
執行命令
${HADOOP_HOME}/bin/hadoop fs -df
返回示例
如果返回如下類似信息,則表示掛載文件存儲 HDFS 版文件系統成功。
Filesystem Size Used Available Use% dfs://f-e389e5c7e****.cn-hangzhou.dfs.aliyuncs.com:10290 10995116277760 0 10995116277760 0% 22/09/20 14:19:04 INFO dfs.DistributedFileSystem: FileSystem close com.alibaba.dfs.DistributedFileSystem@51ee79a3 22/09/20 14:19:04 INFO dfs.DfsClient: DfsClient close Client-6676663918471637276 22/09/20 14:19:04 INFO common.LeaseRenewer: close all files being written 22/09/20 14:19:04 INFO common.LeaseRenewer: LeaseRenwerForClient-6676663918471637276 closed
步驟四:驗證掛載
掛載成功后,您可以在ECS上把文件存儲 HDFS 版文件系統當做Hadoop分布式文件系統來訪問和使用。
常見問題
什么是文件存儲 HDFS 版?
文件存儲 HDFS 版是面向阿里云ECS實例及容器服務等計算資源的文件存儲服務。文件存儲 HDFS 版兼容了標準的HadoopFS協議接口,使您無需對現有大數據分析應用做任何修改,即可使用具備無限容量及性能擴展、單一命名空間、高可靠和高可用的分布式文件系統。相比自建HDFS存儲,使用文件存儲 HDFS 版服務可以大量節約維護成本,降低數據安全風險。
文件存儲 HDFS 版服務適用什么場景?
文件存儲 HDFS 版適用于互聯網行業、金融行業等有大數據計算與存儲分析需求的行業客戶進行海量數據存儲和離線計算的業務場景,充分滿足以Hadoop為代表的分布式計算業務類型對分布式存儲性能、容量和可靠性的多方面要求。
開通文件存儲 HDFS 版服務后,就開始計費嗎?
僅開通文件存儲 HDFS 版服務,不會產生費用。當您在文件存儲 HDFS 版中寫入文件數據產生實際存儲容量,則開始計費。
文件系統用于計費的計費存儲量是如何計算的?
按每小時計費存儲量的最大值(峰值)計費。
計費存儲量=MAX[核算存儲量,實際存儲量]
實際存儲量是指文件系統中所有文件大小的總和(不含目錄),包括文件空洞。
核算存儲量是指5 MiB×Inode(包括文件和目錄)數量獲得的存儲量。Inode數量可以通過控制臺和容量監控獲得。