阿里云E-MapReduce(簡稱EMR) on ACK提供了全新構建大數據平臺的方式。您可以將開源大數據服務部署在阿里云容器服務Kubernetes版(ACK)之上,利用ACK在服務部署和容器應用管理的優勢,減少對底層集群資源的運維投入,以便于您可以更加專注大數據任務本身。
前置概念
閱讀本文前,您可能需要了解如下概念:
形態對比
阿里云EMR提供on ECS和on ACK兩種方式,以滿足不同用戶的需求。
對于正在使用EMR on ECS的用戶,可以將Spark和Presto任務運行在ACK集群上,與其他應用共享一個ACK集群,可以實現計算資源跨可用區共享。
對于已經將大數據任務(例如,Spark和Presto等)執行在ACK集群上的用戶,EMR on ACK提供了自動部署和管理集群的能力。EMR on ACK與EMR Shuffle Service相結合,可以顯著提升Spark任務的性能。
形態 | 描述 |
EMR on ECS | EMR負責將開源Hadoop生態的組件安裝部署在ECS上,并啟動相應的服務。您可以在EMR控制臺完成對集群ECS及服務的運維操作。 您需要將其大數據任務提交至EMR集群。 |
EMR on ACK | 您需要先完成ACK集群的安裝部署。當ACK集群準備就緒后,EMR將基于ACK的資源安裝部署大數據服務組件,并在容器內運行。 |
EMR on ACK優勢
優勢 | 描述 |
節省成本 | 您無需為大數據服務單獨購買ACK集群,通過簡單的配置即可在已有的ACK集群上執行大數據作業,成本低廉。 復用現有ACK集群的空閑資源,一鍵執行EMR Spark和Presto等任務,輕松上手。大數據和在線應用程序可以共享集群資源。 離在線混部(在線任務和離線任務)場景下,資源可以充分利用。大數據和在線應用程序共享集群資源,達到削峰填谷的效果。 |
簡化運維 | 一套運維體系,一套集群管理,全面覆蓋大數據和在線等多種業務,簡化運維。 |
優化體驗 | 一套EMR平臺,同時支持ECS和ACK兩套IaaS資源模型,您可以無縫切換。 利用ACK和彈性容器實例ECI的資源快速交付能力,彈性計算資源的獲取時間更短,充分應對計算高峰期。 支持針對作業級別調整Spark版本,便于快速嘗試新特性,以滿足不同業務對版本的需求。 |
深度集成 | 完全采用云原生數據湖架構,計算使用阿里云ACK,計算資源可以無限擴展;存儲使用阿里云OSS,存儲計算分離;元數據使用數據湖構建DLF,助力數據湖構建。 |