Databricks數據洞察(簡稱DDI)是基于Apache Spark的全托管大數據分析平臺。產品內核引擎使用Databricks Runtime,并針對阿里云平臺進行了優化。DDI為您提供了高效穩定的阿里云Spark服務,您無需關心集群服務,只需專注在Spark作業的開發上。DDI提供的DataInsight Notebook,可以使數據工程師、數據分析師和數據科學家共享集群計算資源、協同工作。
功能特性
Databricks數據洞察包含了完整的社區版Spark的功能和特性,全面兼容Apache Spark。
Databricks數據洞察包含以下組件:
- Spark SQL和DataFrames
Spark SQL是用來處理結構化數據的Spark模塊。DataFrames是被列化了的分布式數據集合,概念上與關系型數據庫的表近似,也可以看做是R或Python中的data frame。
- Spark Streaming
實時數據處理和分析,可以用寫批處理作業的方式寫流式作業。支持Java、Scala和Python語言。
- MLlib
可擴展的機器學習庫,包含了許多常用的算法和工具包。
- GraphX
Spark用于圖和圖并行計算的API。
- Spark Core API
支持R、SQL、Python、Scala、Java等多種語言。