Databricks數據洞察(簡稱DDI)是基于Apache Spark的全托管大數據分析平臺。產品內核引擎使用Databricks Runtime,并針對阿里云平臺進行了優化。DDI為您提供了高效穩定的阿里云Spark服務,您無需關心集群服務,只需專注在Spark作業的開發上。DDI提供的DataInsight Notebook,可以使數據工程師、數據分析師和數據科學家共享集群計算資源、協同工作。

功能特性

Databricks數據洞察包含了完整的社區版Spark的功能和特性,全面兼容Apache Spark。

Databricks數據洞察包含以下組件:
  • Spark SQL和DataFrames

    Spark SQL是用來處理結構化數據的Spark模塊。DataFrames是被列化了的分布式數據集合,概念上與關系型數據庫的表近似,也可以看做是R或Python中的data frame。

  • Spark Streaming

    實時數據處理和分析,可以用寫批處理作業的方式寫流式作業。支持Java、Scala和Python語言。

  • MLlib

    可擴展的機器學習庫,包含了許多常用的算法和工具包。

  • GraphX

    Spark用于圖和圖并行計算的API。

  • Spark Core API

    支持R、SQL、Python、Scala、Java等多種語言。