本文為您介紹如何通過阿里云賬號登錄E-MapReduce控制臺,基于Kubernetes創建集群。
前提條件
已完成添加AliyunOSSFullAccess和AliyunDLFFullAccess權限,詳情請參見授予OSS和DLF權限。
已創建Kubernetes集群,詳情請參見創建Kubernetes專有版集群或創建Kubernetes托管版集群。
已創建節點池,詳情請參見創建節點池。
已開通對象存儲OSS,詳情請參見開通OSS服務。
操作步驟
在EMR on ACK頁面,單擊創建集群。
在EMR on ACK頁面,完成集群相關配置。
參數
描述
地域
創建的集群會在對應的地域內,一旦創建就不能修改。
集群類型
支持以下集群類型:
Shuffle Service:是阿里云EMR在優化計算引擎的Shuffle操作上,推出的擴展組件。Shuffle Service通過提供遠端Shuffle服務,使得Spark作業可以運行在無本地盤的節點上,并完美支持了動態資源,非常適合ACK環境下的Spark集群,詳情請參見Celeborn。
重要當創建Shuffle Service集群類型時,所關聯ACK集群的專屬節點池或節點的實例規格必須均為大數據型或者本地SSD,否則部署RSS失敗。
說明在阿里云EMR for ACK的使用場景中,針對Shuffle Service類型的集群,系統內置了一個名為“rss-pvc-clean”的自動化清理任務。這是一個預設的、用于定期或在特定條件下清理不再使用的PVC資源的Job任務,旨在優化存儲資源管理,避免無效或冗余數據持久化導致的存儲空間浪費問題。
Presto:是基于內存的分布式SQL交互式查詢引擎。
支持多種數據源,適合PB級海量數據的復雜分析,以及跨數據源的查詢。
Spark:是通用的分布式大數據處理引擎,提供了ETL、離線批處理和數據建模等能力。
重要創建Spark集群后,如果您需要關聯集群,則所選產品版本的大版本號需要和關聯的Shuffle Service集群大版本號一致。例如,EMR-5.x-ack版本的Spark集群只能關聯EMR-5.x-ack版本的Shuffle Service集群。
Flink:是一個在有界或無界數據流上進行有狀態計算分布式處理的計算引擎。Flink on Ack基于EMR on Ack底座與社區Flink Kubernetes Operator 1.0.1版本開發,默認使用Flink官方團隊推出的企業版內核,旨在為用戶提供開箱即用的Flink on K8s體驗。
Data Science:請參見創建Data Science集群。
產品版本
默認最新的軟件版本。
組件版本
展示集群類型下的組件及組件版本信息。
ACK集群
選擇已有的ACK集群,或者在容器服務ACK控制臺新建ACK集群。
單擊配置專屬節點,可以配置EMR專屬節點。配置專屬節點可以對節點池或節點打上EMR專屬的污點和標簽,被配置的節點池或節點只能用于EMR。
說明推薦您使用節點池的方式來配置專屬節點,如果沒有節點池,請創建節點池,詳情請參見創建節點池。
OSS Bucket
選擇已有的Bucket,或者在對象存儲OSS控制臺新建Bucket。
集群名稱
集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、中劃線(-)和下劃線(_)。
單擊創建。
當集群狀態顯示為運行中時,表示集群創建成功。