DataWorks on EMR快速入門(mén)
DataWorks支持基于E-MapReduce創(chuàng)建Hive、Spark SQL、Presto和MR等節(jié)點(diǎn),實(shí)現(xiàn)任務(wù)工作流的配置和定時(shí)調(diào)度、元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量監(jiān)控告警等功能,為用戶提供一站式數(shù)據(jù)湖開(kāi)發(fā)和治理的環(huán)境。本文為您介紹如何在DataWorks上快速使用EMR集群。
操作流程
在EMR控制臺(tái),快速創(chuàng)建一個(gè)DataLake集群。更多詳情,請(qǐng)參見(jiàn)創(chuàng)建集群。
在DataWorks控制臺(tái),快速創(chuàng)建一個(gè)工作空間。更多詳情,請(qǐng)參見(jiàn)創(chuàng)建工作空間。
在DataWorks控制臺(tái),快速綁定E-MapReduce。更多詳情,請(qǐng)參見(jiàn)注冊(cè)EMR集群至DataWorks。
EMR環(huán)境配置完成后,您可以在DataWorks控制臺(tái)上進(jìn)行EMR元數(shù)據(jù)管理、任務(wù)運(yùn)維監(jiān)控及數(shù)據(jù)質(zhì)量監(jiān)控,保證EMR數(shù)據(jù)能夠正常產(chǎn)出。更多的信息,請(qǐng)參見(jiàn)DataWorks On EMR使用說(shuō)明。
步驟一:創(chuàng)建集群
進(jìn)入創(chuàng)建集群頁(yè)面。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
地域:創(chuàng)建的集群會(huì)在對(duì)應(yīng)的地域內(nèi),一旦創(chuàng)建不能修改。
資源組:默認(rèn)顯示賬號(hào)全部資源。
單擊上方的創(chuàng)建集群。
在創(chuàng)建集群頁(yè)面,完成集群相關(guān)配置。
配置區(qū)域
配置項(xiàng)
示例
描述
軟件配置
地域
華東1(杭州)
集群節(jié)點(diǎn)ECS實(shí)例所在的物理位置。
重要集群創(chuàng)建后,無(wú)法更改地域,請(qǐng)謹(jǐn)慎選擇。
業(yè)務(wù)場(chǎng)景
數(shù)據(jù)湖
選擇適合的業(yè)務(wù)場(chǎng)景,創(chuàng)建集群時(shí)阿里云EMR會(huì)自動(dòng)為您配置默認(rèn)的組件、服務(wù)和資源,以簡(jiǎn)化集群配置,并提供符合特定業(yè)務(wù)場(chǎng)景需求的集群環(huán)境。
產(chǎn)品版本
EMR-5.14.0
當(dāng)前最新的軟件版本。
服務(wù)高可用
不開(kāi)啟
默認(rèn)不開(kāi)啟。打開(kāi)服務(wù)高可用開(kāi)關(guān)后,EMR會(huì)把Master節(jié)點(diǎn)分布在不同的底層硬件上以降低故障風(fēng)險(xiǎn)。
可選服務(wù)
HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。
根據(jù)您的實(shí)際需求選擇組件,被選中的組件會(huì)默認(rèn)啟動(dòng)相關(guān)的服務(wù)進(jìn)程。
說(shuō)明除過(guò)集群默認(rèn)的服務(wù),還需選擇Knox和OpenLDAP服務(wù)。
允許采集服務(wù)運(yùn)行日志
開(kāi)啟
支持一鍵開(kāi)啟或關(guān)閉所有服務(wù)的日志采集。默認(rèn)開(kāi)啟,將收集您的服務(wù)運(yùn)行日志,這些日志僅供集群診斷使用。
集群創(chuàng)建后,您可以在基礎(chǔ)信息頁(yè)面,修改服務(wù)運(yùn)行日志收集狀態(tài)。
重要關(guān)閉日志采集后,EMR的健康檢查和技術(shù)支持將受到限制,但其他功能仍可正常使用。如何關(guān)閉及影響詳情,請(qǐng)參見(jiàn)如何停止采集服務(wù)日志?。
元數(shù)據(jù)
DLF統(tǒng)一元數(shù)據(jù)
表示元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖構(gòu)建DLF中。
系統(tǒng)會(huì)為您選擇默認(rèn)的DLF數(shù)據(jù)目錄,如果您不同集群期望使用不同的數(shù)據(jù)目錄,可以單擊創(chuàng)建數(shù)據(jù)目錄。
說(shuō)明選擇該方式時(shí),需要開(kāi)通阿里云數(shù)據(jù)湖構(gòu)建服務(wù)。
集群存儲(chǔ)根路徑
1366993922******
當(dāng)您在可選服務(wù)區(qū)域選擇了OSS-HDFS服務(wù)時(shí),需要配置該參數(shù),如果選擇的是HDFS服務(wù),則無(wú)需配置該參數(shù)。
說(shuō)明在選擇使用OSS-HDFS服務(wù)之前,請(qǐng)確保您選擇的地域支持該服務(wù)。否則,您可以嘗試更換地域或使用HDFS服務(wù)替代OSS-HDFS服務(wù)。OSS-HDFS服務(wù)目前支持的地域信息,請(qǐng)參見(jiàn)開(kāi)通并授權(quán)訪問(wèn)OSS-HDFS服務(wù)。
EMR-5.12.1及后續(xù)版本,EMR-3.46.1及后續(xù)版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務(wù)。
硬件配置
付費(fèi)類型
按量付費(fèi)
在測(cè)試場(chǎng)景下,建議使用按量付費(fèi),測(cè)試正常后可以釋放該集群,再新建一個(gè)包年包月的生產(chǎn)集群正式使用。
可用區(qū)
可用區(qū) I
集群創(chuàng)建后,無(wú)法直接更改可用區(qū),請(qǐng)謹(jǐn)慎選擇。
專有網(wǎng)絡(luò)
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
選擇對(duì)應(yīng)區(qū)域下的專有網(wǎng)絡(luò)。如果沒(méi)有,單擊創(chuàng)建VPC前往新建。創(chuàng)建專有網(wǎng)絡(luò)完成后,單擊刷新,可以選擇剛創(chuàng)建好的VPC。
交換機(jī)
vsw_i/vsw-bp1e2f5fhaplp0g6p****
選擇在對(duì)應(yīng)專有網(wǎng)絡(luò)下可用區(qū)的交換機(jī),如果在這個(gè)可用區(qū)沒(méi)有可用的交換機(jī),則需要新創(chuàng)建一個(gè)。
默認(rèn)安全組
sg_seurity/sg-bp1ddw7sm2risw****
重要禁止使用ECS上創(chuàng)建的企業(yè)安全組。
如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個(gè)安全組。
節(jié)點(diǎn)組
打開(kāi)Master節(jié)點(diǎn)組下的掛載公網(wǎng)開(kāi)關(guān),其余使用默認(rèn)值即可。
您可以根據(jù)業(yè)務(wù)訴求,配置Master節(jié)點(diǎn)組、Core節(jié)點(diǎn)組或Task節(jié)點(diǎn)組信息。詳情請(qǐng)參見(jiàn)選型配置說(shuō)明。
基礎(chǔ)配置
集群名稱
Emr-DataLake
集群的名字,長(zhǎng)度限制為1~64個(gè)字符,僅可使用中文、字母、數(shù)字、短劃線(-)和下劃線(_)。
身份憑證
密碼。
用于遠(yuǎn)程登錄集群的Master節(jié)點(diǎn)。
登錄密碼和確認(rèn)密碼
自定義密碼。
請(qǐng)記錄該配置,登錄集群時(shí)您需要輸入該密碼。
選中服務(wù)協(xié)議,單擊確認(rèn)訂單。
在EMR on ECS頁(yè)面,當(dāng)集群狀態(tài)顯示為運(yùn)行中時(shí),表示集群創(chuàng)建成功。更多集群參數(shù)信息,請(qǐng)參見(jiàn)創(chuàng)建集群。
步驟二:創(chuàng)建工作空間
單擊創(chuàng)建工作空間。
配置工作空間基本信息。
配置項(xiàng)
示例
描述
工作空間名稱
emr_dataworks
工作空間名稱的長(zhǎng)度需要在3~23個(gè)字符,以字母開(kāi)頭,且只能包含字母、下劃線(_)和數(shù)字。
生產(chǎn)、開(kāi)發(fā)環(huán)境隔離
否
定義工作空間模式。
是:需隔離生產(chǎn)、開(kāi)發(fā)環(huán)境,該方式創(chuàng)建的工作空間為標(biāo)準(zhǔn)模式工作空間。
否:無(wú)需隔離生產(chǎn)、開(kāi)發(fā)環(huán)境,該方式創(chuàng)建的工作空間為簡(jiǎn)單模式工作空間。
單擊提交,工作空間創(chuàng)建完成。
步驟三:綁定E-MapReduce
在DataWorks上使用EMR的詳細(xì)開(kāi)發(fā)流程,可以參見(jiàn)DataWorks On EMR使用說(shuō)明。
工作空間創(chuàng)建完后,在創(chuàng)建工作空間面板中,單擊E-MapReduce區(qū)域的立即綁定。
在綁定E-MapReduce頁(yè)面,單擊綁定并進(jìn)入下一步。
在開(kāi)源集群頁(yè)面,單擊注冊(cè)集群。
在注冊(cè)E-MapReduce集群頁(yè)面,配置相關(guān)參數(shù),單擊完成注冊(cè)。
參數(shù)
示例
描述
集群顯示名稱
dataworks_test
定義集群在DataWorks中的名稱,名稱必須唯一。
集群所屬云賬號(hào)
當(dāng)前阿里云主賬號(hào)
選擇需要將哪個(gè)賬號(hào)下的EMR集群注冊(cè)至當(dāng)前工作空間。
集群類型
數(shù)據(jù)湖(DataLake)
選擇需要綁定的EMR集群類型。
集群
Emr-DataLake
選擇需要綁定在DataWorks上運(yùn)行任務(wù)的EMR集群。
默認(rèn)訪問(wèn)身份
集群賬號(hào):hadoop
定義在當(dāng)前工作空間下,使用什么身份訪問(wèn)該EMR集群。
在EMR集群頁(yè)面,單擊資源組初始化。
可以對(duì)需要使用的資源組進(jìn)行初始化,驗(yàn)證獨(dú)享調(diào)度資源組和EMR引擎的網(wǎng)絡(luò)連通性。
說(shuō)明DataWorks僅支持使用獨(dú)享調(diào)度資源組運(yùn)行EMR任務(wù),所以此處僅支持選擇獨(dú)享調(diào)度資源組進(jìn)行資源組初始化操作。
資源組初始化可能導(dǎo)致正在運(yùn)行的任務(wù)失敗。非必要場(chǎng)景(例如,集群配置變更,需要立即重新初始化資源組,否則會(huì)導(dǎo)致大量任務(wù)運(yùn)行失敗),建議在業(yè)務(wù)低峰期對(duì)資源組執(zhí)行初始化操作。
步驟四:數(shù)據(jù)開(kāi)發(fā)和治理
操作 | 描述 | 文檔 |
數(shù)據(jù)開(kāi)發(fā) | 您可以根據(jù)業(yè)務(wù)需要,選擇合適的節(jié)點(diǎn)類型進(jìn)行EMR任務(wù)開(kāi)發(fā)。 | |
元數(shù)據(jù)管理 | 數(shù)據(jù)地圖通過(guò)元數(shù)據(jù)采集方式管理EMR元數(shù)據(jù)。您可以在數(shù)據(jù)地圖中查看EMR表元數(shù)據(jù)、產(chǎn)出信息和血緣等功能。 | |
數(shù)據(jù)質(zhì)量監(jiān)控 | 數(shù)據(jù)質(zhì)量提供對(duì)調(diào)度任務(wù)產(chǎn)出的表數(shù)據(jù)的質(zhì)量監(jiān)控能力,您可以通過(guò)配置表的質(zhì)量監(jiān)控規(guī)則實(shí)現(xiàn)對(duì)表數(shù)據(jù)的監(jiān)控。 說(shuō)明 DataLake和自定義類型集群配置質(zhì)量規(guī)則時(shí),您需選擇dqc_emr_plugin_datalake插件。 | |
任務(wù)運(yùn)維監(jiān)控 | 智能監(jiān)控提供調(diào)度任務(wù)執(zhí)行狀態(tài)的監(jiān)控能力,您可以通過(guò)配置智能監(jiān)控規(guī)則實(shí)現(xiàn)任務(wù)運(yùn)行狀態(tài)的監(jiān)控。 |