DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)集群對接的能力,您可在DataWorks中注冊CDH及CDP集群,進行任務開發、調度、數據地圖(元數據管理)和數據質量等一系列的數據開發和治理操作。
背景信息
CDH是Cloudera的開源平臺發行版,提供開箱即用的集群管理、集群監控、集群診斷等功能,并支持使用多種組件,助力您執行端到端的大數據工作流程。
CDP是跨平臺收集和整合客戶數據的公共數據平臺,可幫助您收集實時數據,并將其構建為單獨的用戶數據使用。
您可在DataWorks中注冊CDH及CDP集群,基于業務需求進行相關任務開發、調度、數據地圖(元數據管理)和數據質量等一系列的數據開發和治理操作。
前提條件
當前工作空間下,擁有以下任意權限策略或角色的用戶可注冊CDH或CDP集群:
阿里云主賬號。
擁有DataWorks空間管理員角色的工作空間成員。授權詳情請參見添加空間成員并管理成員角色權限。
擁有AliyunDataWorksFullAccess權限策略的用戶,且該用戶為DataWorks工作空間成員。授權權限策略,詳情請參見RAM用戶授權、RAM角色授權;添加用戶為工作空間成員,詳情請參見添加空間成員并管理成員角色權限。
已完成CDH或CDP集群的相關部署,并獲取注冊集群所需的配置信息。詳情請參見準備工作:獲取CDH或CDP集群信息并配置網絡連通。
使用限制
僅支持使用新版Serverless資源組(推薦)或舊版獨享調度資源組運行CDH或CDP集群任務。
說明Serverless資源組為通用型資源組,可滿足多種任務類型(例如,數據同步、任務調度)的場景應用,購買詳情請參見新增和使用Serverless資源組;若您已購買過舊版獨享調度資源組,也可使用該資源組運行CDH或CD任務,詳情請參見使用獨享調度資源組。
新用戶僅支持購買新版Serverless資源組。
若使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組。集群版本介紹,請參見步驟二:注冊CDH或CDP集群。
僅支持華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)、德國(法蘭克福)地域注冊CDH或CDP集群。
步驟一:進入集群注冊頁面
進入管理中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
在左側導航欄單擊集群管理進入集群管理頁面,單擊注冊集群,選擇開源集群類型為CDH,進入集群注冊頁面。
步驟二:注冊CDH或CDP集群
標準模式工作空間,需分別注冊開發環境集群和生產環境集群。工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別。
CDP與CDH基于DataWorks的開發操作基本一致,本文以CDH為例,為您介紹在DataWorks如何注冊CDH集群。
配置集群基本信息。
參數
描述
集群顯示名稱
定義集群在DataWorks的名稱,名稱必須唯一。
集群版本
選擇注冊的集群版本。
DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接選擇,該類集群版本配套的組件版本(即集群連接信息中各組件的版本)固定。若該類集群版本不滿足您的業務需要,您可選擇自定義版本,并按需配置組件版本。
說明不同集群版本需配置的組件存在差異,具體請以實際界面為準。
使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組,且注冊完成后需提交工單聯系技術支持人員初始化相關環境。
集群名稱
用于確定當前所注冊集群的配置信息來源。可選擇其他工作空間已注冊的集群或新建集群:
已注冊集群:當前所注冊集群的配置信息,直接引用其他工作空間已注冊集群的配置信息。
新建集群:當前注冊集群的配置信息需您自行配置。
配置集群連接信息。
根據實際使用情況選擇對應集群的組件版本,并輸入獲取到的組件地址信息。獲取組件信息,詳情請參見準備工作:獲取CDH或CDP集群信息并配置網絡連通。
添加集群配置文件。
您可根據需要上傳所需組件的配置文件。獲取配置文件,詳情請參見準備工作:獲取CDH或CDP集群信息并配置網絡連通。
配置文件介紹如下。
配置文件
描述
應用場景
Core-Site文件
包含Hadoop Core庫的全局配置。例如,HDFS和MapReduce常用的I/O設置。
運行Spark或MapReduce任務,需上傳該文件。
Hdfs-Site文件
包含HDFS的相關配置。例如,數據塊大小、備份數量、路徑名稱等。
Mapred-Site文件
用于配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。
運行MapReduce任務,需上傳該文件。
Yarn-Site文件
包含了與YARN守護進程相關的所有配置。例如,資源管理器、節點管理器和應用程序運行時的環境配置。
運行Spark或MapReduce任務,或賬號映射類型選擇Kerberos時,需上傳該文件。
Hive-Site文件
包含了用于配置Hive的各項參數。例如,數據庫連接信息、Hive Metastore的設置和執行引擎等。
賬號映射類型選擇Kerberos時,需上傳該文件。
Spark-Defaults文件
用于指定Spark作業執行時應用的默認配置。您可通過
spark-defaults.conf
文件預先設定一系列參數(例如,內存大小、CPU核數),Spark應用程序在運行時將采用該參數配置。運行Spark任務,需上傳該文件。
Config.Properties文件
包含Presto服務器的相關配置。例如,設置Presto集群中協調器節點和工作節點的全局屬性。
使用Presto組件,且賬號映射類型選擇OPEN LDAP或Kerberos時,需上傳該文件。
Presto.Jks文件
用于存儲安全證書,包括私鑰和頒發給應用程序的公鑰證書。在Presto數據庫查詢引擎中,
presto.jks
文件用于為Presto進程啟用SSL/TLS加密通信,確保數據傳輸的安全。配置集群默認訪問身份。
用于配置在DataWorks運行CDH集群任務時,使用什么賬號訪問CDH集群,不同環境支持使用的賬號存在差異,具體如下。
說明當注冊集群時,默認訪問身份配置為非集群賬號,若該賬號未設置賬號映射或設置的映射類型選擇無認證方式,則任務均會執行失敗。
環境
默認訪問身份
相關文檔
開發環境
集群賬號:無論誰在DataWorks運行CDH任務(例如,阿里云主賬號、只擁有開發權限的子賬號),實際統一使用指定集群賬號訪問CDH集群。
映射賬號:使用任務執行者運行CDH任務時,需配置任務執行者賬號與集群賬號的映射關系,配置后,運行任務時實際使用該映射賬號訪問CDH集群。
配置賬號映射關系,詳情請參見設置集群身份映射。
生產環境
集群賬號:無論誰在DataWorks運行CDH任務(例如,阿里云主賬號、只擁有開發權限的子賬號),實際統一使用指定集群賬號訪問CDH集群。
映射賬號:使用任務責任人、阿里云主賬號、阿里云子賬號運行CDH任務時,需配置相應賬號與集群賬號的映射關系,配置后,運行任務時實際使用該映射賬號訪問CDH集群。
單擊完成注冊,即成功在DataWorks中注冊集群。
步驟三:資源組初始化
初次綁定集群、集群服務配置變更或組件版本升級(例如:修改core-site.xml)請初始化資源組,確保資源組可正常訪問CDH集群,資源組當前環境配置可正常執行CDH集群任務。在集群管理頁面,找到已注冊的CDH集群,單擊右上角的資源組初始化,選擇所需資源組并進行初始化操作。
DataWorks僅支持使用新版Serverless資源組(推薦)與獨享調度資源組運行CDH集群任務,因此,此處僅支持選擇這兩類資源組進行初始化操作。若無可用資源組,請根據需要新建,詳情請參見新增和使用Serverless資源組、新增和使用獨享調度資源組。
使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組,且注冊完成后需提交工單聯系技術支持人員初始化相關環境。
后續步驟
設置集群身份映射:當CDH集群默認訪問身份非指定集群賬號時(即通過DataWorks云賬號訪問),您需配置DataWorks云賬號與集群賬號的映射關系,使DataWorks云賬號可通過映射的集群指定身份訪問CDH集群,實現相關數據權限的隔離和管控。
數據開發:您可在DataStudio(數據開發)中創建Hive、Spark、MapReduce、Impala或者Presto任務節點,進行相關開發操作。詳情請參見使用DataWorks進行數據開發。