DataWorks支持基于CDH(Cloudera's Distribution Including Apache Hadoop,以下簡稱CDH)和CDP(Cloudera Data Platform,以下簡稱CDP)集群創建Hive、MR、Presto和Impala等節點,實現CDP/CDH任務工作流的配置、定時調度和元數據管理等功能,保障數據生產及管理的高效穩定。本文為您介紹在DataWorks上使用CDP/CDH的基本開發流程,以及相關費用說明、環境準備、權限控制等內容。
背景信息
CDH是Cloudera的開源平臺發行版,提供開箱即用的集群管理、集群監控、集群診斷等功能,并支持使用多種組件,助力您執行端到端的大數據工作流程。
CDP是跨平臺收集和整合客戶數據的公共數據平臺,可幫助您收集實時數據,并將其構建為單獨的用戶數據使用。
您可在DataWorks中注冊CDH及CDP集群,基于業務需求進行相關任務開發、調度、數據地圖(元數據管理)和數據質量等一系列的數據開發和治理操作。
使用限制
僅支持使用Serverless資源組(推薦)或舊版獨享調度資源組運行CDH或CDP集群任務。
說明(推薦)Serverless資源組為通用型資源組,可滿足多種任務類型(例如,數據同步、任務調度)的場景應用,購買詳情請參見新增和使用Serverless資源組;若您已購買過舊版獨享調度資源組,也可使用該資源組運行CDH或CDP集群任務。
新用戶僅支持購買Serverless資源組。
若使用自定義版本集群注冊至DataWorks,僅支持使用舊版獨享調度資源組。集群版本介紹,請參見步驟二:注冊CDH或CDP集群。
僅支持華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)、德國(法蘭克福)地域注冊CDH或CDP集群。
前提條件
已開通DataWorks,詳情請參見開通DataWorks服務。
已部署并注冊CDP或CDH集群。
DataWorks支持使用非阿里云ECS環境部署的CDP或CDH,但需確保部署CDP或CDH的環境和阿里云專有網絡可連通。通常您可使用高速通道、VPN等網絡連通方案來保障網絡的連通性。詳情請參見注冊CDH或CDP集群至DataWorks。
已購買Serverless資源組。
Serverless資源組購買后,默認與其他云產品網絡不連通。在對接使用CDP或CDH時,需先保障CDP或CDH集群和Serverless資源組間網絡連通,才可進行后續相關操作。購買資源組,詳情請參見新增和使用Serverless資源組。
已創建DataWorks工作空間,詳情請參見創建并管理工作空間。
使用說明
DataWorks on CDP/CDH的相關開發說明如下。
序號 | 說明 |
DataWorks上進行CDP或CDH任務開發,除DataWorks側產品費用外,還會產生其他產品側的費用。 | |
DataWorks上進行CDP或CDH任務開發前,您需根據業務需求購買相應DataWorks版本及所需資源組,并完成相關CDP或CDH集群注冊及開發環境的準備工作。 | |
DataWorks為您提供了產品級與模塊級的權限控制,您可根據業務需求對不同用戶授權不同權限,實現權限的精細化管理。 | |
DataWorks數據集成提供CDP/CDH Hive數據的讀取與寫入的能力,并提供離線同步、全增量同步任務等多種數據同步場景。 | |
DataWorks提供數據建模服務,將無序、雜亂、繁瑣、龐大且難以管理的數據,進行結構化有序的管理。還提供數據開發(DataStudio)功能,用于調度任務的開發,并與運維中心配合使用,進行調度任務的監控運維。 | |
DataWorks數據分析提供CDP及CDH數據分析與服務共享能力。 | |
DataWorks提供CDP及CDH元數據管理與數據治理能力。 | |
DataWorks提供數據服務能力,幫助您統一管理面向內外部的API服務。 | |
DataWorks支持開放能力,幫助您快速實現各類應用系統對接DataWorks,并進行數據流程管控、數據治理和運維,及時響應各應用系統對接DataWorks的業務狀態變化。 |
費用說明
一、DataWorks相關費用
以下費用會體現在DataWorks產品相關賬單中。DataWorks計費詳情請參見DataWorks計費項說明。
費用 | 說明 |
DataWorks版本費用 | 進行任務開發前,您需先開通DataWorks。如果開通的是DataWorks標準版、專業版、企業版,則在開通時需支付相應版本的版本費用。 |
任務調度的調度資源費用 | 任務開發完成后,進行任務調度需使用調度資源。您可使用Serverless資源組(推薦)或舊版獨享調度資源組,支付相應資源組費用。 說明 購買的Serverless資源組可滿足任務調度、數據同步共同使用。 |
數據同步的同步資源費用 | 運行數據同步任務時,除調度資源外,還需使用數據同步資源。您可使用Serverless資源組(推薦)或舊版獨享數據集成資源組,支付相應資源組費用。 |
DataStudio界面使用運行、帶參運行功能執行的任務,不會收取調度費用。
沒有實際執行成功的任務及空跑的任務不收取調度費用。
您可參考DataWorks調度任務下發邏輯,以輔助了解上述計費說明。
二、非DataWorks相關費用
以下費用不會體現在DataWorks產品相關賬單中。
涉及其他產品的費用,收費情況以對應產品的收費邏輯決定,您可查看對應產品的計費文檔了解詳情。計費詳情請參見計費概述。
費用 | 說明 |
數據庫費用 | 數據同步時,讀寫上下游數據庫中的數據時,可能會產生數據庫費用。 |
計算和存儲費用 | 運行計算引擎任務時,可能會產生計算引擎的計算和存儲費用。 |
網絡服務費用 | 連通DataWorks和其他相關產品的網絡環境時,可能會產生網絡服務費用。例如,使用高速通道、共享帶寬、EIP等產品連通網絡時,會產生相應產品的服務費用。 |
環境準備
一、資源準備
類別 | 描述 | 相關文檔 |
版本選擇 | DataWorks基礎版服務可滿足CDP或CDH基本的數據上云、數據開發與調度生產、簡單的數據治理工作,若需獲取更專業的數據治理、數據安全解決方案,可選擇相應的標準版、專業版、企業版服務。 | |
資源組選擇 | CDP或CDH集群目前支持使用Serverless資源組(推薦)或舊版獨享調度資源組。 |
二、開發環境準備
您需先在DataWorks工作空間注冊CDP或CDH集群,才可在數據開發(DataStudio)進行數據開發工作,并以工作空間為單位管理空間成員,以便進行協同開發。
類別 | 描述 | 相關文檔 |
數據同步環境準備 | 基于集群的Hive組件執行數據同步任務前,需先將該組件創建為相應的DataWorks數據源。 | |
數據開發、數據分析環境準備 | 基于DataWorks進行計算引擎任務周期性調度前,您需先將集群添加至DataWorks。添加后,才可使用該集群進行相關數據開發、數據分析、周期性調度運行任務等操作。 | |
協同開發環境準備 | 為保障RAM用戶以工作空間為單位進行協同開發,您需執行如下操作:
|
權限控制
DataWorks為您提供了產品級與模塊級的權限控制,您可根據業務需求對不同用戶授權不同權限。權限控制相關介紹如下。
一、數據訪問權限控制
加入至DataWorks工作空間進行CDP或CDH任務開發的RAM用戶,可通過為其配置集群賬號映射的方式,使空間成員(RAM用戶)擁有該集群映射賬號所擁有的權限。集群賬號映射,詳情請參見設置集群身份映射。
二、功能模塊權限控制
進行數據開發前,您可參考為RAM用戶授權指引,讓其擁有不同的操作權限。權限類型如下:
開始使用
DataWorks為您提供了多個功能模塊,您可在數據開發(DataStudio)中進行調度任務的開發,并在開發完成后進入生產運維中心進行調度任務的監控運維。同時,提供了任務開發與發布的流程管控,助力您規范開發操作,保障開發過程的安全性。
一、數據集成
DataWorks的數據集成模塊為您提供讀取和寫入數據至CDP/CDH Hive、CDP/CDH HBase的能力,您需要將Hive或HBase組件創建為DataWorks的Hive或HBase數據源,實現將其他數據源的數據同步至Hive或HBase數據源,或將Hive或HBase數據源的數據同步至其他數據源。同時,可根據需要選擇離線同步、全增量同步任務等場景執行相關數據同步操作。詳情請參見數據集成。
二、數據建模與開發
模塊 | 說明 | 相關文檔 |
數據建模 | 數據建模是全鏈路數據治理的第一步,沉淀阿里巴巴數據中臺建模方法論,從數倉規劃、數據標準、維度建模、數據指標四個方面,以業務視角對業務的數據進行詮釋,讓企業內部實現“數同文”的快速理解與流通。 | |
數據開發 | DataWorks將CDP或CDH計算引擎的能力進行了封裝,支持您執行CDP或CDH相關的數據同步、數據開發任務。
| |
您可結合DataWorks的通用類型節點和引擎計算節點進行復雜的邏輯處理。 主要節點如下:
| ||
節點任務開發完成后,可根據需要執行如下操作:
| ||
運維中心 | 運維中心是一站式大數據運維、監控平臺,支持實時查看任務的運行狀態,并為異常任務提供智能診斷、重跑等運維操作。它提供智能基線功能,幫助您解決重要任務產出時間不可控、海量任務監控難等問題,保障任務產出的時效性。 | |
數據質量 | 數據質量針對數據研發的全鏈路,保障數據可用性。通過對數據質量規則的高效校驗,以及與任務調度流程的緊密結合,可以幫助用戶第一時間發現質量問題、有效防止數據質量問題擴散,為業務提供高效、可靠、可信賴的數據。 |
三、數據分析
幫助您實現在線SQL分析、業務洞察、編輯和分享數據;并支持將查詢結果保存為圖表卡片,快速搭建可視化數據報告便于日常匯報。詳情請參見數據分析概述。
四、數據治理
CDP/CDH集群注冊完成后,DataWorks將自動采集您數據源下的元數據,您可前往數據地圖概述進行查看;同時,也可進入數據治理中心概述,查看DataWorks檢測的待治理問題,進行相關數據的治理。
模塊 | 說明 | 相關文檔 |
數據地圖 | DataWorks數據地圖提供了企業級數據管理平臺,能夠基于統一元數據的底層建設,提供數據對象的管理和盤點的能力、血緣查看,以及數據對象的快速查找和深度理解的能力。 說明 當前支持CDH Hive、CDH Spark、CDH Spark SQL、CDH Impala節點的表級別和字段級別血緣展示,具體詳情,請參見各數據源血緣展示情況說明。 | |
安全中心 數據保護傘 審批中心 | 安全中心、數據保護傘、審批中心是集數據資產分級分類、敏感數據識別、數據授權管理、敏感數據脫敏、敏感數據訪問審計、風險識別與響應于一體的一站式數據安全治理界面,幫助用戶落地數據安全治理事項。 說明 審批中心不支持對CDH/CDP表自定義審批流程。 | |
數據治理中心 | 數據治理中心針對多個治理領域,通過數據領域規則沉淀、自動識別資產待優化問題項、覆蓋事后及事前的治理優化策略等方式幫助用戶主動式、體系化完成數據治理工作。 說明 僅支持使用數據治理中心的全局檢查項及治理項治理CDH/CDP數據問題,具體請以實際使用為準。 |
五、數據服務
DataWorks數據服務旨在為企業提供全面的數據服務及共享能力,幫助企業統一管理面向內外部的API服務。詳情請參見數據服務概述。
六、開放平臺
DataWorks支持開放能力,幫助您快速實現各類應用系統對接DataWorks、方便快捷的進行數據流程管控、數據治理和運維,及時響應應用系統對接DataWorks的業務狀態變化。
類別 | 描述 | 相關文檔 |
OpenAPI | DataWorks開放平臺的OpenAPI功能,為您提供開放API能力,通過開放API實現本地服務和DataWorks服務的交互,提升企業大數據處理效率,減少人工操作和運維工作,降低數據風險和企業成本。 | |
開放事件 | DataWorks開放平臺的開放事件(OpenEvent)功能,為您提供消息訂閱服務,通過訂閱DataWorks事件狀態、應用系統對接DataWorks、實時獲取相關內容的狀態變化,幫助您及時響應相應事件,滿足個性化決策需求。 | |
擴展程序 | DataWorks通過OpenEvent為您提供消息推送訂閱功能,您可將服務程序注冊為DataWorks的擴展程序,通過擴展程序來卡點并響應訂閱的事件消息,實現通過擴展程序對特定事件進行消息通知與流程管控。 |