本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
OSS-HDFS服務(JindoFS服務)是一個云原生數據湖存儲功能。基于統一的元數據管理能力,完全兼容HDFS文件系統接口,滿足大數據和AI等領域的數據湖計算場景。
注意事項
當您為某個Bucket開通OSS-HDFS服務后,通過該服務寫入的數據將保留在OSS-HDFS的數據存儲目錄.dlsdata/
下。為避免影響OSS-HDFS服務的正常使用或者引發數據丟失的風險,禁止以非OSS-HDFS提供的方式對目錄.dlsdata/
及目錄下的Object執行寫入操作,例如重命名目錄、刪除目錄或者刪除Object等。
開通OSS-HDFS服務后,您在使用涉及.dlsdata/
目錄寫入操作的OSS其他功能時,可能存在數據丟失、數據污染、數據無法正常訪問等風險。更多信息,請參見使用前須知。
費用說明
元數據管理費用
使用OSS-HDFS服務時,會產生元數據管理費用,但該計費項暫不收費。更多信息,請參見OSS-HDFS元數據管理費用。
數據使用費用
使用OSS-HDFS服務時,數據塊采用了OSS的存儲方式。因此,OSS的計量計費方式適用于OSS-HDFS服務中的數據塊。更多信息,請參見計費概述。
功能優勢
通過OSS-HDFS服務,無需對現有的Hadoop、Spark大數據分析應用做任何修改。通過簡單的配置即可像在原生HDFS中那樣管理和訪問數據,同時獲得OSS無限容量、彈性擴展、更高的安全性、可靠性和可用性支撐。
作為云原生數據湖基礎,OSS-HDFS在滿足EB級數據分析、億級文件管理服務、TB級吞吐量的同時,全面融合大數據存儲生態,除提供對象存儲扁平命名空間之外,還提供了分層命名空間服務。分層命名空間支持將對象組織到一個目錄層次結構中進行管理,并能通過統一元數據管理能力進行內部自動轉換。對Hadoop用戶而言,無需做數據復制或轉換就可以實現像訪問本地HDFS一樣高效的數據訪問,極大提升整體作業性能,降低了維護成本。
功能特性
功能特性 | 說明 | 參考文檔 |
回收站 | 當您從OSS-HDFS服務誤刪除文件時,文件不會立即被徹底刪除,而是轉至回收站。回收站中的數據保存時間默認是3天,支持自定義數據保存時間為1~14天。在回收站數據保存時間到期前,您可以從回收站恢復已刪除的文件。 | |
導出清單 | 使用清單導出功能,您可以將某個Bucket下的OSS-HDFS服務的文件清單導出到某個特定路徑,格式為JSON文件,方便您對元數據進行統計分析。 | |
導出審計日志 | OSS-HDFS服務端記錄了客戶端請求的查詢、修改、刪除文件元數據的操作審計日志。 您可以通過審計日志,了解OSS-HDFS服務操作審計、訪問統計以及異常請求等情況。 | |
冷熱分層存儲 | 并不是所有OSS-HDFS中存儲的數據都需要頻繁訪問,但基于數據合規或者存檔等原因,部分數據仍然需要繼續保存。針對以上問題,OSS-HDFS服務支持數據的冷熱分層存儲,對于經常需要訪問的數據以標準類型進行存儲,對于較少訪問的數據以低頻、歸檔以及冷歸檔類型進行存儲,從而降低總存儲成本。 | |
元數據轉換 | OSS-HDFS服務支持在未部署任何導入和導出工具的情況下,直接將OSS元數據轉換為OSS-HDFS元數據。 | |
Snapshot(試用) | 您可以通過Snapshot進行數據備份和恢復。Snapshot在使用方式上與HDFS的快照功能完全兼容,同時支持目錄層級的操作。 | |
RootPolicy | 您可以通過RootPolicy為OSS-HDFS服務設置自定義前綴,在無需修改原有訪問 | |
ProxyUser | ProxyUser命令用于授權一個用戶代表其他用戶進行文件系統操作。例如,某些敏感數據只允許授權的特定用戶代表其他用戶進行訪問和操作。 | |
UserGroupsMapping | UserGroupsMapping用于配置用戶和用戶組之間的映射關系。 |
應用場景
OSS-HDFS服務提供全面的大數據和AI生態支持,其主要應用場景如下:
Hive、Spark離線數倉
OSS-HDFS服務原生支持文件、目錄語義和操作,添加文件和目錄權限,支持目錄原子性、毫秒級rename操作,支持通過setTimes設置時間,擴展屬性(XAttrs)、ACL以及本地讀緩存加速等特性。適用于開源Hive、Spark離線數倉。在ETL場景下相較于OSS標準存儲類型Bucket,OSS-HDFS服務具有更大的性能優勢。更多信息,請參見在EMR Hive或Spark中訪問OSS-HDFS。
OLAP
OSS-HDFS服務提供append、truncate、flush、sync、pwrite等基礎文件操作。通過JindoFuse充分支持POSIX,可以在ClickHouse這類OLAP場景中替換本地磁盤來實現存儲與計算分離方案。同時,得益于緩存系統進行加速,達到較優性價比。
HBase存儲與計算分離
OSS-HDFS服務原生支持文件、目錄語義和操作,并支持flush操作,可用于替代HDFS用做HBase存儲與計算分離方案。相比HBase結合OSS標準存儲類型Bucket的方案,HBase結合OSS-HDFS服務依賴HDFS來存放WAL日志,大幅簡化整體方案架構。更多信息,請參見使用OSS-HDFS作為HBase的底層存儲。
實時計算
OSS-HDFS服務高效支持flush和truncate操作,可無縫替代HDFS在Flink實時計算應用場景下用做Sink、Checkpoint存儲方案。
數據遷移
OSS-HDFS服務作為新一代云原生數據湖存儲,支持IDC HDFS平遷上云,優化HDFS使用體驗,同時享受彈性伸縮、按需付費的成本效益,大幅優化存儲成本。JindoDistCp工具支持將HDFS文件數據(包括文件屬性等元數據)無縫遷入OSS-HDFS 服務,并基于HDFS Checksum提供快速比對。
引擎支持列表
生態類型 | 引擎/平臺 | 參考文檔 |
開源生態 | Flink | |
Flume | ||
Hadoop | ||
HBase | ||
Hive | ||
Impala | ||
Presto | ||
Spark | ||
阿里云生態 | EMR | |
Flink | ||
Flume | ||
HBase | ||
Hive | ||
Impala | ||
Presto | ||
Spark | ||
Sqoop | ||
第三方生態 | SeaTunnel |
更多參考
您可以通過云起實驗室,快速體驗存算分離架構下的EMR集群結合OSS-HDFS服務進行數據湖分析。更多信息,請參見使用EMR+DLF+OSS-HDFS進行數據湖分析。