JindoData是阿里云開源大數據團隊自研的數據湖存儲加速套件,面向大數據和AI生態(tài),為阿里云和業(yè)界主要數據湖存儲系統提供全方位訪問加速解決方案。
JindoData套件基于統一架構和內核實現,主要包括JindoFS存儲系統(原JindoFS Block模式)、JindoFSx存儲加速系統(原JindoFS Cache模式),JindoSDK大數據萬能SDK和全面兼容的生態(tài)工具(JindoFuse、JindoDistCp)以及插件支持。
注意事項
JindoData適用于EMR-5.14.0及之前版本,EMR-3.48.0及之前版本。
EMR-5.15.0及之后版本、EMR-3.49.0及之后版本,不支持選擇JindoData。您可以使用JindoCache來實現緩存功能,使用DLF-Auth來實現鑒權功能。
JindoFS存儲系統
基于阿里云OSS的云原生存儲系統,二進制兼容Apache HDFS,并且與Apache HDFS基本功能對齊,提供優(yōu)化的HDFS使用和平遷體驗。JindoFS存儲系統是原JindoFS Block模式的全新升級版本。
阿里云OSS-HDFS服務(JindoFS服務)是JindoFS存儲系統在阿里云上的服務化部署形態(tài),和阿里云OSS深度融合,開箱即用,無須在自建集群部署維護JindoFS,即免運維。
OSS-HDFS服務的詳細信息,請參見什么是OSS-HDFS服務。
JindoFSx存儲加速系統
JindoFSx(JindoData服務)是原JindoFS Cache模式的全新升級版本,是面向大數據和AI生態(tài)的云原生數據湖存儲加速系統,為大數據和AI應用訪問各種云存儲提供訪問加速,支持數據緩存、元數據緩存和P2P加速等功能。JindoFSx支持管理多個后端存儲系統,可以通過統一命名空間進行管理,也可以兼容各系統原生的訪問協議,也支持為這些系統提供統一的權限管理。原生優(yōu)化支持阿里云OSS和阿里云OSS-HDFS服務,同時也支持業(yè)界多云對象存儲(例如,Amazon S3)、 Apache HDFS和NAS。
生態(tài)支持和工具
支持JindoSDK。
支持面向云時代的大數據Hadoop SDK和HDFS接口,內置優(yōu)化訪問阿里云OSS,較Hadoop社區(qū)版本性能大幅提升。同時支持JindoFS存儲系統和服務、JindoFSx存儲加速系統,支持多云對象存儲。
支持JindoShell CLI。
JindoData除了支持HDFS Shell命令,還提供了一套JindoShell CLI命令,從功能、性能上大幅擴展和優(yōu)化一些數據訪問操作。
支持JindoFuse POSIX。
JindoData為阿里云OSS、JindoFS存儲系統和服務、JindoFSx存儲加速系統提供了POSIX支持。
支持JindoDistCp數據遷移。
IDC機房數據(HDFS)上云遷移和多云遷移利器,支持多種存儲數據遷移到阿里云OSS和JindoFS服務,使用上類似Hadoop DistCp。
支持JindoTable。
結合計算引擎的使用推出的一套解決方案,支持Spark、Hive和Presto等引擎,以及表格式數據的管理功能。
生態(tài)插件。
除了默認提供JindoSDK支持Hadoop,另外還支持Flink Connector等插件。