JindoData(僅對存量用戶開放)
JindoData是阿里云開源大數(shù)據(jù)團隊自研的數(shù)據(jù)湖存儲加速套件,面向大數(shù)據(jù)和AI生態(tài),為阿里云和業(yè)界主要數(shù)據(jù)湖存儲系統(tǒng)提供全方位訪問加速解決方案。
JindoData套件基于統(tǒng)一架構(gòu)和內(nèi)核實現(xiàn),主要包括JindoFS存儲系統(tǒng)(原JindoFS Block模式)、JindoFSx存儲加速系統(tǒng)(原JindoFS Cache模式),JindoSDK大數(shù)據(jù)萬能SDK和全面兼容的生態(tài)工具(JindoFuse、JindoDistCp)以及插件支持。
注意事項
JindoData適用于EMR-5.14.0及之前版本,EMR-3.48.0及之前版本。
EMR-5.15.0及之后版本、EMR-3.49.0及之后版本,不支持選擇JindoData。您可以使用JindoCache來實現(xiàn)緩存功能,使用DLF-Auth來實現(xiàn)鑒權(quán)功能。
JindoFS存儲系統(tǒng)
基于阿里云OSS的云原生存儲系統(tǒng),二進制兼容Apache HDFS,并且與Apache HDFS基本功能對齊,提供優(yōu)化的HDFS使用和平遷體驗。JindoFS存儲系統(tǒng)是原JindoFS Block模式的全新升級版本。
阿里云OSS-HDFS服務(wù)(JindoFS服務(wù))是JindoFS存儲系統(tǒng)在阿里云上的服務(wù)化部署形態(tài),和阿里云OSS深度融合,開箱即用,無須在自建集群部署維護JindoFS,即免運維。
OSS-HDFS服務(wù)的詳細信息,請參見什么是OSS-HDFS服務(wù)。
JindoFSx存儲加速系統(tǒng)
JindoFSx(JindoData服務(wù))是原JindoFS Cache模式的全新升級版本,是面向大數(shù)據(jù)和AI生態(tài)的云原生數(shù)據(jù)湖存儲加速系統(tǒng),為大數(shù)據(jù)和AI應(yīng)用訪問各種云存儲提供訪問加速,支持數(shù)據(jù)緩存、元數(shù)據(jù)緩存和P2P加速等功能。JindoFSx支持管理多個后端存儲系統(tǒng),可以通過統(tǒng)一命名空間進行管理,也可以兼容各系統(tǒng)原生的訪問協(xié)議,也支持為這些系統(tǒng)提供統(tǒng)一的權(quán)限管理。原生優(yōu)化支持阿里云OSS和阿里云OSS-HDFS服務(wù),同時也支持業(yè)界多云對象存儲(例如,Amazon S3)、 Apache HDFS和NAS。
生態(tài)支持和工具
支持JindoSDK。
支持面向云時代的大數(shù)據(jù)Hadoop SDK和HDFS接口,內(nèi)置優(yōu)化訪問阿里云OSS,較Hadoop社區(qū)版本性能大幅提升。同時支持JindoFS存儲系統(tǒng)和服務(wù)、JindoFSx存儲加速系統(tǒng),支持多云對象存儲。
支持JindoShell CLI。
JindoData除了支持HDFS Shell命令,還提供了一套JindoShell CLI命令,從功能、性能上大幅擴展和優(yōu)化一些數(shù)據(jù)訪問操作。
支持JindoFuse POSIX。
JindoData為阿里云OSS、JindoFS存儲系統(tǒng)和服務(wù)、JindoFSx存儲加速系統(tǒng)提供了POSIX支持。
支持JindoDistCp數(shù)據(jù)遷移。
IDC機房數(shù)據(jù)(HDFS)上云遷移和多云遷移利器,支持多種存儲數(shù)據(jù)遷移到阿里云OSS和JindoFS服務(wù),使用上類似Hadoop DistCp。
支持JindoTable。
結(jié)合計算引擎的使用推出的一套解決方案,支持Spark、Hive和Presto等引擎,以及表格式數(shù)據(jù)的管理功能。
生態(tài)插件。
除了默認提供JindoSDK支持Hadoop,另外還支持Flink Connector等插件。