E-MapReduce(簡稱EMR)新版控制臺提供了數據湖集群,一個更靈活、可靠,以及高效的大數據計算集群。同時,您可以基于該集群輕松構建一個可擴展的數據管道。本文為您介紹數據湖集群支持的特性,以及與舊版Hadoop集群之間的差異。
數據湖集群特性介紹
可靠性
如果您啟用了集群的高可用服務,則EMR把3臺Master節點分布在底層不同的硬件上以降低故障風險。另外,考慮到Master節點在損壞情況下的修復時間,數據湖集群不再支持2臺Master模式。同時在高可用集群模式下,EMR不再支持本地MySQL(單機部署,非高可用) 作為Hive MetaStore數據庫,僅支持DLF和外部RDS兩種方式。
數據湖集群的創建以及擴容的過程中,會評估ECS的健康狀況,從而避免異常ECS加入集群;同時EMR管理器會自動識別在集群后期運行過程中出現的磁盤損壞和長時間不可讀寫等極端情況的問題,并啟動補償機制。
靈活性
調整數據湖集群的所有服務為可選,允許您根據實際需求來規劃集群應用,您甚至可以只勾選HDFS從而擁有一個獨立的分布式存儲系統的集群,或者只勾選Presto從而擁有一個獨立的Ad-Hoc集群。
由于數據湖集群默認支持Private Zone,所以集群內部節點的訪問不再依賴hosts文件,從而避免因依賴hosts文件引發的問題。
附加安全組與掛載公網
Hadoop集群默認有一個安全組,他簡單并易于使用,但無法精細化管理一個集群對外開放的端口。例如,一個集群需要對外開放HDFS的50070端口,如果此時增加一個端口入規則,則該規則會對集群所有節點有效,但實際上Core或Task并不需要開放該端口。因此數據湖集群對每一個節點組增加了最多兩個附加安全組,從而可以精細化控制節點組出入端口的規則。
另外,EMR數據湖集群將掛載公網功能移到了節點組,這樣可以更好的搭配附加安全組實現精細化的對外開放公網的管理。
Spark部署
數據湖集群在原有Hadoop2 + Spark2和Hadoop3 + Spark3的基礎上,增加了Hadoop2 + Spark3和Hadoop3 + Spark2的組合部署模式。您可以根據實際情況,選擇滿足自己的軟件組合。另外,數據湖集群支持Kyuubi,一個企業級的數據湖計算引擎Gateway,為SparkSQL提供標準化的JDBC接口,可實現多租戶和多種計算資源管理方式。
域名支持
數據湖集群優化了節點的域名,從原來的emr-header-1.cluster-13***
格式調整為master-1-1.c-494bea2977d9***
格式。
如果是高可用集群,則取值master-1-{1-3}并加上集群ID作為后綴組成hostname。同時,機器名顯示為emr-user@master-1-1({IP}),這意味著您可以在終端上看到當前節點的IP地址,從而進一步方便您平時的運維工作。
登錄用戶以及私鑰對
通過私鑰對的方式登錄集群時,其默認用戶名從root調整為emr-user,這樣做的出發點在于更推薦在平時節點運維時使用emr-user用戶。如果您仍然想使用root用戶,可以在登錄集群后通過sudo命令切換為root用戶。
使用私鑰對默認可以登錄數據湖集群所有節點而不僅是Master節點。如果您仍使用密碼方式登錄集群,則可以繼續使用root用戶。
新增emr-metadata
命令
數據湖集群的每個節點默認增加一個可執行命令emr-metadata
,該命令會輸出當前節點關于集群的相關元數據信息。例如,集群ID、節點的角色、instanceId以及網絡與硬件配置等,這可以提供您在使用引導腳本的過程中所依賴的本地節點信息。
與Hadoop集群的主要差異
模塊 | 功能項 | 數據湖集群 | Hadoop集群 |
集群 | 集群創建時間 | 平均時間小于5分鐘。 | 平均時間小于10分鐘。 |
集群節點組新增節點 | 平均時間小于3.5分鐘。 | 平均時間小于10分鐘。 | |
開放API | 支持。 | 支持。 | |
域名支持 | Private Zone。 | hosts地址映射。 | |
磁盤擴容 | 支持熱擴容,無需重啟服務。 | 不支持熱擴容,需要重啟服務。 | |
添加服務 | 支持。 | 支持。 | |
節點組 | 交換機 | 可以在新建節點組時選擇交換機。 | 僅支持在集群創建時選擇,集群創建后不可更改。 |
掛載公網 |
|
| |
附加安全組 | 支持。 | 不支持。 | |
部署集 |
| 功能受限。 | |
節點組狀態 | 支持。 | 不支持。 | |
混合節點 | 支持同規格的不同機型混合。 |
| |
彈性伸縮 | 彈性伸縮 | 彈性伸縮與節點組解耦,從獨立的功能模塊轉為節點組操作,使用更加便捷。 | 需要專用的彈性伸縮組,該節點組不可進行手動擴縮容。 |
伸縮規則 |
|
| |
伸縮記錄 | 豐富了彈性伸縮記錄信息。在查看詳情頁面新增了觸發規則快照和執行結果參數,能夠快速查看觸發原因和變更節點信息。 | 提供基礎的伸縮記錄列表。 | |
指標采集頻率 | 每30秒采集一次。 | 每30秒采集一次。 | |
伸縮活動生效時間 | 規則應用后1~30秒。 | 規則應用后1~2分鐘。 | |
擴縮容 | 擴縮容活動 |
|
|
高可用與軟件應用 | 高可用 | 不再支持本地MySQL作為Hive Metastore數據庫。 | 支持本地MySQL作為Hive Metastore數據庫。 |
支持部署集,3臺Master分布在不同底層硬件以降低硬件風險。 | 默認不支持部署集。 | ||
NameNode與ResourceManager部署于3節點,并不再支持2 Master模式。 | Namenode與ResourceManager僅部署于2節點,支持2 Master模式。 | ||
集群應用組件 | 支持可選 | 必選 + 可選。 | |
Spark2與Hadoop3組合 | 支持。 | 不支持。 | |
Spark3與Hadoop2組合 | 支持。 | EMR-3.38.0之后的版本支持同時部署。 |