選型配置說明
選擇合適的集群規格是CDP產品使用的第一步,CDP的選型配置需要考慮的主要因素包括:使用場景,估算數據量,服務可靠性以及預算等。?
基礎版CDP集群有主節點(Master)、工具節點(Utility)和核心實例(Core)三種實例類型。
專業版CDP集群有主節點(Master)、工具節點(Utility)、核心實例(Core)和數據服務實例(Data-Service)四種實例類型。
Master節點的選型
Master節點主要用于部署HDFS NameNode,YARN ResourceManager以及Zookeeper Server等。
在生產集群中,建議至少部署兩臺Master節點以實現集群的高可用,Master節點數大于一臺時,自動開啟HDFS,YARN和Hive的HA。
由于Master節點主要用于存儲HDFS元數據,且HDFS元數據存儲在內存中,因此,建議根據HDFS中的文件數量選擇16GB內存以上的機型。
Utility節點的選型
在一個集群中僅需部署一臺工具節點,工具節點主要用于部署CM(CDP的管控),以及Hive Metastore,Hue以及集群的元數據信息。針對高可用集群,工具節點還會用于部署HDFS 的JournalNode以及ZooKeeper的Server。針對高安全集群,工具節點也會用于安裝Solr server,Ranger以及Knox代理。
Utility工具節點在集群中扮演很重要的角色,存儲了大量的集群元數據,并且維護了CDP的管控平臺,因此Utility工具節點的可用性至關重要,Utility工具節點的存儲僅支持云盤存儲,以保證數據的可靠性。
Core節點的選型
Core節點主要用于數據存儲和計算,運行HDFS DataNode和YARN NodeManager。
一個集群中,至少部署3臺Core節點,節點的選型主要取決于集群的數據量:
當HDFS的數據量大于60TB,建議選擇本地盤機型(ecs.d1族系機型)。
HDFS的數據量小于60TB,可以考慮高效云盤和SSD云盤。
Data-Service節點的選型
Data-Service節點主要用于數據計算,包含了Data Warehouse,Machine Learning和Data Engineering(Spark)三種服務。一個集群中至少部署3臺Data-Service節點,且節點配置至少為16 core,內存128GB。