SmartData是E-MapReduce(簡稱EMR)產品的核心自研組件,為EMR各個計算引擎提供統一的存儲優化、緩存優化、計算加速優化和多個存儲功能擴展,涵蓋數據訪問、數據治理和數據安全。
SmartData組件在EMR產品中的位置如下所示。
SmartData組件包括:
- JindoFS核心子系統:為各種遠端存儲系統提供緩存和緩存加速,詳情請參見JindoFS介紹和使用。
- JindoTable核心子系統:為表格數據源(例如Hive數倉)提供表和分區級別的優化和治理,詳情請參見JindoTable使用說明。
- JindoManager:提供JindoFS&JindoTable相關服務和功能的管理頁面,例如,查看文件和表在緩存上的各種統計指標。
- JindoSDK:為EMR各種開源計算引擎提供統一的SDK,支持Java、C、C++和Python語言,提供多種訪問和API接口,包括HCFS文件系統接口、POSIX接口和Table表格接口。
- 工具集: 提供相關的工具集,例如Jindo tool和遷移工具Jindo DistCp。
- 各種Connectors:包括Hadoop connector、Flink connector和TensorFlow connector,支持Kite SDK、Apache Beams、Flume、Sqoop和Kafka。
SmartData目前通過JindoFS和JindoTable支持的數據源,包括阿里云OSS、Apache Hadoop HDFS、Hive數倉和阿里云MaxCompute。
SmartData作為EMR產品核心自研組件,獨立開發與版本發布,詳細版本請參見版本概述。
SmartData詳細使用,請查看相應文檔: