文件存儲HDFS版
文件存儲HDFS版(Apsara File Storage for HDFS)是面向阿里云ECS實例及容器服務等計算資源的文件存儲服務。您可以像在Hadoop分布式文件系統(Hadoop Distributed File System)中管理和訪問數據那樣使用文件存儲HDFS版。您無需對現有大數據分析應用做任何修改,即可使用具備無限容量及性能擴展、單一命名空間、多共享、高可靠和高可用等特性的分布式文件系統。
適用場景
文件存儲HDFS版適用于對吞吐要求較高的大數據分析與機器學習業務場景。文件存儲HDFS版能夠提供高吞吐量和低延遲的訪問能力,無需將數據遷移到計算資源本地。
您將數據存入文件存儲HDFS版后,ECS實例或其他計算資源即可直接訪問這些數據。將Hadoop或其他機器學習應用部署在多個計算資源上,應用可以直接通過Hadoopfs接口訪問數據進行離線或在線計算,也可以直接將計算結果輸出到文件存儲HDFS版做永久保存。
性能
衡量文件存儲HDFS版的性能指標主要是吞吐能力。吞吐最大不會超過ECS帶寬。如果您的ECS帶寬只有1.5 Gbps,則吞吐最高可達到187.5 MB/s。吞吐能力和購買的存儲空間相關。更多信息請參見集群吞吐性能測試。
數據持久性和服務可用性
和文件存儲NAS一樣,文件存儲HDFS版的數據在后端進行多副本存儲,每份數據都有多份拷貝在故障域隔離的不同設備上存放,提供99.999999999%(11個9)的數據可靠性,能夠有效降低數據安全風險。
擴展性和彈性
文件存儲HDFS版能夠為應用負載提供高吞吐量、高IOPS及低時延的存儲性能。同時,其性能與容量成線性關系,可滿足業務增長時對更高容量與存儲性能的需求。
安全性
文件存儲HDFS版具有文件系統標準權限控制、權限組訪問控制和RAM用戶等多種安全機制,從而保證文件系統數據安全萬無一失。
接口
文件存儲HDFS版的SDK包含文件系統SDK和管控系統SDK。目前公測期間只提供文件系統SDK,管控操作則通過控制臺進行。文件存儲HDFS版SDK實現了Hadoop FileSystem接口,提供一種Hadoop兼容的文件系統,對外輸出為一個單獨的JAR文件,即aliyun-sdk-dfs-x.y.z.jar。借助該SDK,Apache Hadoop的計算分析應用(如MapReduce、Hive、Spark、Flink等)可以無需修改代碼和編譯,直接使用文件存儲HDFS版作為defaultFS,從而獲得超越原始HDFS的功能和性能優勢。
如果您更習慣使用圖形化的Web應用程序,可以使用管理控制臺來管理HDFS文件系統。
費用模型
文件存儲HDFS版的計費項包括存儲容量和預置吞吐。開通產品時默認按照實際使用量按小時計費(按量付費),同時也支持購買資源包(包年包月)的方式提前購買資源的使用額度和時長,獲取更多的優惠。詳情請參見云產品定價。