EMR Serverless Spark是一款云原生,專為大規模數據處理和分析而設計的全托管Serverless產品。它為企業提供了一站式的數據平臺服務,包括任務開發、調試、調度和運維等,極大地簡化了數據處理的全生命周期工作流程。使用EMR Serverless Spark,企業可以更專注于數據分析和價值提煉,提高工作效率。
前置概念
閱讀本文前,您可能需要了解如下概念:
產品特性
構建企業級全托管的數據平臺服務
易用性強
致力于為客戶提供優質的產品體驗。您無需構建復雜的基礎設施即可開始作業開發之旅。
高性能
基于Fusion Engine (Spark Native Engine) ,性能體驗最高可達開源Spark的4倍。
高擴展性
基于阿里云Serverless底座,提供資源彈性能力,滿足ETL作業突發高峰的同時,進一步降低實際計算資源成本。
資源可觀測
提供資源和任務實例級別的可觀測指標以及告警能力。
高安全性
基于阿里云專有網絡(VPC)部署,提供專有網絡訪問,同時提供更細力度訪問控制及更高安全等級保護。
開放架構與生態集成
EMR Serverless Spark與阿里云OSS-HDFS/OSS,數據湖構建DLF,以及DataWorks無縫對接,為客戶提供了最大程度的便利。
產品架構
產品優勢
云原生極速計算引擎
內置Fusion Engine (Spark Native Engine),相對開源版本性能提升300%。
內置Celeborn(Remote Shuffle Service),支持PB級Shuffle數據,計算資源總成本最高下降30%。
開放化的數據湖架構
支持計算存儲分離,計算可彈性伸縮,存儲可按量付費。
對接OSS-HDFS,完全兼容HDFS的云上存儲,無縫平滑遷移上云。
中心化的DLF元數據,全面打通湖倉元數據。
一站式的開發體驗
提供作業開發、調試、發布、調度等一站式數據開發體驗。
內置版本管理、開發與生產隔離,滿足企業級開發與發布標準。
Serverless的資源平臺
開箱即用,無需手動管理和運維云基礎設施。
彈性伸縮,秒級資源彈性與供給。
按量付費,按實際計算資源量付費,進一步降低計算總成本。