日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

注冊CDH或CDP集群至DataWorks

DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)集群對接的能力,您可在DataWorks中注冊CDH及CDP集群,進行任務開發、調度、數據地圖(元數據管理)和數據質量等一系列的數據開發和治理操作。

背景信息

  • CDH是Cloudera的開源平臺發行版,提供開箱即用的集群管理、集群監控、集群診斷等功能,并支持使用多種組件,助力您執行端到端的大數據工作流程。

  • CDP是跨平臺收集和整合客戶數據的公共數據平臺,可幫助您收集實時數據,并將其構建為單獨的用戶數據使用。

您可在DataWorks中注冊CDH及CDP集群,基于業務需求進行相關任務開發、調度、數據地圖(元數據管理)和數據質量等一系列的數據開發和治理操作。

前提條件

使用限制

  • 僅支持使用新版Serverless資源組(推薦)或舊版獨享調度資源組運行CDH或CDP集群任務。

    說明
    • Serverless資源組為通用型資源組,可滿足多種任務類型(例如,數據同步、任務調度)的場景應用,購買詳情請參見新增和使用Serverless資源組;若您已購買過舊版獨享調度資源組,也可使用該資源組運行CDH或CD任務,詳情請參見使用獨享調度資源組

    • 新用戶僅支持購買新版Serverless資源組。

    • 若使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組。集群版本介紹,請參見步驟二:注冊CDH或CDP集群

  • 僅支持華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)、德國(法蘭克福)地域注冊CDH或CDP集群。

步驟一:進入集群注冊頁面

  1. 進入管理中心頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的更多 > 管理中心,在下拉框中選擇對應工作空間后單擊進入管理中心

  2. 在左側導航欄單擊集群管理進入集群管理頁面,單擊注冊集群,選擇開源集群類型為CDH,進入集群注冊頁面。

步驟二:注冊CDH或CDP集群

說明
  • 標準模式工作空間,需分別注冊開發環境集群和生產環境集群。工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別

  • CDP與CDH基于DataWorks的開發操作基本一致,本文以CDH為例,為您介紹在DataWorks如何注冊CDH集群。

  1. 配置集群基本信息。

    參數

    描述

    集群顯示名稱

    定義集群在DataWorks的名稱,名稱必須唯一。

    集群版本

    選擇注冊的集群版本。

    DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接選擇,該類集群版本配套的組件版本(即集群連接信息中各組件的版本)固定。若該類集群版本不滿足您的業務需要,您可選擇自定義版本,并按需配置組件版本。

    說明
    • 不同集群版本需配置的組件存在差異,具體請以實際界面為準。

    • 使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組,且注冊完成后需提交工單聯系技術支持人員初始化相關環境。

    集群名稱

    用于確定當前所注冊集群的配置信息來源。可選擇其他工作空間已注冊的集群或新建集群:

    • 已注冊集群:當前所注冊集群的配置信息,直接引用其他工作空間已注冊集群的配置信息。

    • 新建集群:當前注冊集群的配置信息需您自行配置。

  2. 配置集群連接信息。

    根據實際使用情況選擇對應集群的組件版本,并輸入獲取到的組件地址信息。獲取組件信息,詳情請參見準備工作:獲取CDH或CDP集群信息并配置網絡連通image.png

    說明

    如果在Serverless資源組通過域名訪問CDH相關組件,則需要在云解析DNS的內網DNS解析 (PrivateZone)中對CDH組件域名進行權威解析。詳情可參見添加內置權威域名設置域名生效范圍

  3. 添加集群配置文件。

    您可根據需要上傳所需組件的配置文件。獲取配置文件,詳情請參見準備工作:獲取CDH或CDP集群信息并配置網絡連通

    image.png

    配置文件介紹如下。

    配置文件

    描述

    應用場景

    Core-Site文件

    包含Hadoop Core庫的全局配置。例如,HDFS和MapReduce常用的I/O設置。

    運行Spark或MapReduce任務,需上傳該文件。

    Hdfs-Site文件

    包含HDFS的相關配置。例如,數據塊大小、備份數量、路徑名稱等。

    Mapred-Site文件

    用于配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。

    運行MapReduce任務,需上傳該文件。

    Yarn-Site文件

    包含了與YARN守護進程相關的所有配置。例如,資源管理器、節點管理器和應用程序運行時的環境配置。

    運行Spark或MapReduce任務,或賬號映射類型選擇Kerberos時,需上傳該文件。

    Hive-Site文件

    包含了用于配置Hive的各項參數。例如,數據庫連接信息、Hive Metastore的設置和執行引擎等。

    賬號映射類型選擇Kerberos時,需上傳該文件。

    Spark-Defaults文件

    用于指定Spark作業執行時應用的默認配置。您可通過 spark-defaults.conf 文件預先設定一系列參數(例如,內存大小、CPU核數),Spark應用程序在運行時將采用該參數配置。

    運行Spark任務,需上傳該文件。

    Config.Properties文件

    包含Presto服務器的相關配置。例如,設置Presto集群中協調器節點和工作節點的全局屬性。

    使用Presto組件,且賬號映射類型選擇OPEN LDAP或Kerberos時,需上傳該文件。

    Presto.Jks文件

    用于存儲安全證書,包括私鑰和頒發給應用程序的公鑰證書。在Presto數據庫查詢引擎中,presto.jks 文件用于為Presto進程啟用SSL/TLS加密通信,確保數據傳輸的安全。

  4. 配置集群默認訪問身份。

    用于配置在DataWorks運行CDH集群任務時,使用什么賬號訪問CDH集群,不同環境支持使用的賬號存在差異,具體如下。

    說明

    當注冊集群時,默認訪問身份配置為非集群賬號,若該賬號未設置賬號映射或設置的映射類型選擇無認證方式,則任務均會執行失敗。

    環境

    默認訪問身份

    相關文檔

    開發環境

    • 集群賬號:無論誰在DataWorks運行CDH任務(例如,阿里云主賬號、只擁有開發權限的子賬號),實際統一使用指定集群賬號訪問CDH集群。

    • 映射賬號:使用任務執行者運行CDH任務時,需配置任務執行者賬號與集群賬號的映射關系,配置后,運行任務時實際使用該映射賬號訪問CDH集群。

    配置賬號映射關系,詳情請參見設置集群身份映射

    生產環境

    • 集群賬號:無論誰在DataWorks運行CDH任務(例如,阿里云主賬號、只擁有開發權限的子賬號),實際統一使用指定集群賬號訪問CDH集群。

    • 映射賬號:使用任務責任人、阿里云主賬號、阿里云子賬號運行CDH任務時,需配置相應賬號與集群賬號的映射關系,配置后,運行任務時實際使用該映射賬號訪問CDH集群。

  5. 單擊完成注冊,即成功在DataWorks中注冊集群。

步驟三:資源組初始化

初次綁定集群、集群服務配置變更組件版本升級(例如:修改core-site.xml)請初始化資源組,確保資源組可正常訪問CDH集群,資源組當前環境配置可正常執行CDH集群任務。在集群管理頁面,找到已注冊的CDH集群,單擊右上角的資源組初始化選擇所需資源組并進行初始化操作。

說明
  • DataWorks僅支持使用新版Serverless資源組(推薦)與獨享調度資源組運行CDH集群任務,因此,此處僅支持選擇這兩類資源組進行初始化操作。若無可用資源組,請根據需要新建,詳情請參見新增和使用Serverless資源組新增和使用獨享調度資源組

  • 使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組,且注冊完成后需提交工單聯系技術支持人員初始化相關環境。

后續步驟

  • 設置集群身份映射:當CDH集群默認訪問身份非指定集群賬號時(即通過DataWorks云賬號訪問),您需配置DataWorks云賬號與集群賬號的映射關系,使DataWorks云賬號可通過映射的集群指定身份訪問CDH集群,實現相關數據權限的隔離和管控。

  • 數據開發:您可在DataStudio(數據開發)中創建Hive、Spark、MapReduce、Impala或者Presto任務節點,進行相關開發操作。詳情請參見使用DataWorks進行數據開發