日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

數據湖集群

E-MapReduce(簡稱EMR)新版控制臺提供了數據湖集群,一個更靈活、可靠,以及高效的大數據計算集群。同時,您可以基于該集群輕松構建一個可擴展的數據管道。本文為您介紹數據湖集群支持的特性,以及與舊版Hadoop集群之間的差異。

數據湖集群特性介紹

可靠性

如果您啟用了集群的高可用服務,則EMR把3臺Master節點分布在底層不同的硬件上以降低故障風險。另外,考慮到Master節點在損壞情況下的修復時間,數據湖集群不再支持2臺Master模式。同時在高可用集群模式下,EMR不再支持本地MySQL(單機部署,非高可用) 作為Hive MetaStore數據庫,僅支持DLF和外部RDS兩種方式。

數據湖集群的創建以及擴容的過程中,會評估ECS的健康狀況,從而避免異常ECS加入集群;同時EMR管理器會自動識別在集群后期運行過程中出現的磁盤損壞和長時間不可讀寫等極端情況的問題,并啟動補償機制。

靈活性

調整數據湖集群的所有服務為可選,允許您根據實際需求來規劃集群應用,您甚至可以只勾選HDFS從而擁有一個獨立的分布式存儲系統的集群,或者只勾選Presto從而擁有一個獨立的Ad-Hoc集群。

由于數據湖集群默認支持Private Zone,所以集群內部節點的訪問不再依賴hosts文件,從而避免因依賴hosts文件引發的問題。

附加安全組與掛載公網

Hadoop集群默認有一個安全組,他簡單并易于使用,但無法精細化管理一個集群對外開放的端口。例如,一個集群需要對外開放HDFS的50070端口,如果此時增加一個端口入規則,則該規則會對集群所有節點有效,但實際上Core或Task并不需要開放該端口。因此數據湖集群對每一個節點組增加了最多兩個附加安全組,從而可以精細化控制節點組出入端口的規則。

另外,EMR數據湖集群將掛載公網功能移到了節點組,這樣可以更好的搭配附加安全組實現精細化的對外開放公網的管理。

Spark部署

數據湖集群在原有Hadoop2 + Spark2和Hadoop3 + Spark3的基礎上,增加了Hadoop2 + Spark3和Hadoop3 + Spark2的組合部署模式。您可以根據實際情況,選擇滿足自己的軟件組合。另外,數據湖集群支持Kyuubi,一個企業級的數據湖計算引擎Gateway,為SparkSQL提供標準化的JDBC接口,可實現多租戶和多種計算資源管理方式。

域名支持

數據湖集群優化了節點的域名,從原來的emr-header-1.cluster-13***格式調整為master-1-1.c-494bea2977d9***格式。

如果是高可用集群,則取值master-1-{1-3}并加上集群ID作為后綴組成hostname。同時,機器名顯示為emr-user@master-1-1({IP}),這意味著您可以在終端上看到當前節點的IP地址,從而進一步方便您平時的運維工作。

登錄用戶以及私鑰對

通過私鑰對的方式登錄集群時,其默認用戶名從root調整為emr-user,這樣做的出發點在于更推薦在平時節點運維時使用emr-user用戶。如果您仍然想使用root用戶,可以在登錄集群后通過sudo命令切換為root用戶。

使用私鑰對默認可以登錄數據湖集群所有節點而不僅是Master節點。如果您仍使用密碼方式登錄集群,則可以繼續使用root用戶。

新增emr-metadata命令

數據湖集群的每個節點默認增加一個可執行命令emr-metadata,該命令會輸出當前節點關于集群的相關元數據信息。例如,集群ID、節點的角色、instanceId以及網絡與硬件配置等,這可以提供您在使用引導腳本的過程中所依賴的本地節點信息。

與Hadoop集群的主要差異

模塊

功能項

數據湖集群

Hadoop集群

集群

集群創建時間

平均時間小于5分鐘。

平均時間小于10分鐘。

集群節點組新增節點

平均時間小于3.5分鐘。

平均時間小于10分鐘。

開放API

支持。

支持。

域名支持

Private Zone。

hosts地址映射。

磁盤擴容

支持熱擴容,無需重啟服務。

不支持熱擴容,需要重啟服務。

添加服務

支持。

支持。

節點組

交換機

可以在新建節點組時選擇交換機。

僅支持在集群創建時選擇,集群創建后不可更改。

掛載公網

  • 可以在創建集群的硬件配置頁面的實例區域,選擇是否為節點組開啟公網。

  • 沒有節點組類型的限制。

  • 僅支持在集群創建時選擇是否開啟公網,創建后如果您需要使用公網IP地址訪問,請在ECS上申請開通公網IP地址,詳情請參見彈性公網IP中的申請EIP的內容。

  • 僅支持Master節點組掛載公網。

附加安全組

支持。

不支持。

部署集

  • 可以在創建集群硬件配置頁面的實例區域,選擇是否開啟部署集開關。

  • 可以在新增Core節點組時,選擇是否開啟部署集開關。

功能受限。

節點組狀態

支持。

不支持。

混合節點

支持同規格的不同機型混合。

  • 僅支持同規格機型。

  • 彈性伸縮節點支持混合節點。

彈性伸縮

彈性伸縮

彈性伸縮與節點組解耦,從獨立的功能模塊轉為節點組操作,使用更加便捷。

需要專用的彈性伸縮組,該節點組不可進行手動擴縮容。

伸縮規則

  • 配置規則不依賴于是否運行彈性伸縮活動,可靈活修改配置(僅影響下一次觸發)。

  • 同一節點組多個規則同時觸發時,會按照用戶規則排序依次生效。

  • 配置規則受到彈性伸縮狀態限制,修改后無法立即生效。

  • 同一節點組多個規則同時觸發時,隨機生效。

伸縮記錄

豐富了彈性伸縮記錄信息。查看詳情頁面新增了觸發規則快照執行結果參數,能夠快速查看觸發原因和變更節點信息。

提供基礎的伸縮記錄列表。

指標采集頻率

每30秒采集一次。

每30秒采集一次。

伸縮活動生效時間

規則應用后1~30秒。

規則應用后1~2分鐘。

擴縮容

擴縮容活動

  • 彈性伸縮活動與手動擴縮容活動運行機制相同。區別僅在于觸發條件不同:

    • 彈性伸縮需要彈性伸縮規則觸發。

    • 手動擴縮容需要人為觸發。

  • 支持暫停彈性伸縮活動。

  • 多個Task節點組的擴縮容活動彼此獨立,互不影響。

  • 彈性縮容根據節點負載和創建時間,智能選中目標節點,減少業務影響。

  • 彈性伸縮活動和手動擴縮容活動是兩套機制,兩者無法兼容。

  • 彈性伸縮活動不支持暫停狀態。

  • 同時僅支持一個節點組進行(彈性)擴縮容。

  • 彈性縮容節點選擇具有隨機性。

高可用與軟件應用

高可用

不再支持本地MySQL作為Hive Metastore數據庫。

支持本地MySQL作為Hive Metastore數據庫。

支持部署集,3臺Master分布在不同底層硬件以降低硬件風險。

默認不支持部署集。

NameNode與ResourceManager部署于3節點,并不再支持2 Master模式。

Namenode與ResourceManager僅部署于2節點,支持2 Master模式。

集群應用組件

支持可選

必選 + 可選。

Spark2與Hadoop3組合

支持。

不支持。

Spark3與Hadoop2組合

支持。

EMR-3.38.0之后的版本支持同時部署。