日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

DataWorks on EMR快速入門(mén)

更新時(shí)間:

DataWorks支持基于E-MapReduce創(chuàng)建Hive、Spark SQL、Presto和MR等節(jié)點(diǎn),實(shí)現(xiàn)任務(wù)工作流的配置和定時(shí)調(diào)度、元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量監(jiān)控告警等功能,為用戶提供一站式數(shù)據(jù)湖開(kāi)發(fā)和治理的環(huán)境。本文為您介紹如何在DataWorks上快速使用EMR集群。

操作流程

  1. 步驟一:創(chuàng)建集群

    在EMR控制臺(tái),快速創(chuàng)建一個(gè)DataLake集群。更多詳情,請(qǐng)參見(jiàn)創(chuàng)建集群

  2. 步驟二:創(chuàng)建工作空間

    在DataWorks控制臺(tái),快速創(chuàng)建一個(gè)工作空間。更多詳情,請(qǐng)參見(jiàn)創(chuàng)建工作空間

  3. 步驟三:綁定E-MapReduce

    在DataWorks控制臺(tái),快速綁定E-MapReduce。更多詳情,請(qǐng)參見(jiàn)注冊(cè)EMR集群至DataWorks

  4. 步驟四:數(shù)據(jù)開(kāi)發(fā)和治理

    EMR環(huán)境配置完成后,您可以在DataWorks控制臺(tái)上進(jìn)行EMR元數(shù)據(jù)管理、任務(wù)運(yùn)維監(jiān)控及數(shù)據(jù)質(zhì)量監(jiān)控,保證EMR數(shù)據(jù)能夠正常產(chǎn)出。更多的信息,請(qǐng)參見(jiàn)DataWorks On EMR使用說(shuō)明

步驟一:創(chuàng)建集群

  1. 進(jìn)入創(chuàng)建集群頁(yè)面。

    1. 登錄EMR on ECS控制臺(tái)

    2. 在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。

      • 地域:創(chuàng)建的集群會(huì)在對(duì)應(yīng)的地域內(nèi),一旦創(chuàng)建不能修改。

      • 資源組:默認(rèn)顯示賬號(hào)全部資源。

    3. 單擊上方的創(chuàng)建集群

  2. 在創(chuàng)建集群頁(yè)面,完成集群相關(guān)配置。

    配置區(qū)域

    配置項(xiàng)

    示例

    描述

    軟件配置

    地域

    華東1(杭州)

    集群節(jié)點(diǎn)ECS實(shí)例所在的物理位置。

    重要

    集群創(chuàng)建后,無(wú)法更改地域,請(qǐng)謹(jǐn)慎選擇。

    業(yè)務(wù)場(chǎng)景

    數(shù)據(jù)湖

    選擇適合的業(yè)務(wù)場(chǎng)景,創(chuàng)建集群時(shí)阿里云EMR會(huì)自動(dòng)為您配置默認(rèn)的組件、服務(wù)和資源,以簡(jiǎn)化集群配置,并提供符合特定業(yè)務(wù)場(chǎng)景需求的集群環(huán)境。

    產(chǎn)品版本

    EMR-5.14.0

    當(dāng)前最新的軟件版本。

    服務(wù)高可用

    不開(kāi)啟

    默認(rèn)不開(kāi)啟。打開(kāi)服務(wù)高可用開(kāi)關(guān)后,EMR會(huì)把Master節(jié)點(diǎn)分布在不同的底層硬件上以降低故障風(fēng)險(xiǎn)。

    可選服務(wù)

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根據(jù)您的實(shí)際需求選擇組件,被選中的組件會(huì)默認(rèn)啟動(dòng)相關(guān)的服務(wù)進(jìn)程。

    說(shuō)明

    除過(guò)集群默認(rèn)的服務(wù),還需選擇Knox和OpenLDAP服務(wù)。

    允許采集服務(wù)運(yùn)行日志

    開(kāi)啟

    支持一鍵開(kāi)啟或關(guān)閉所有服務(wù)的日志采集。默認(rèn)開(kāi)啟,將收集您的服務(wù)運(yùn)行日志,這些日志僅供集群診斷使用。

    集群創(chuàng)建后,您可以在基礎(chǔ)信息頁(yè)面,修改服務(wù)運(yùn)行日志收集狀態(tài)

    重要

    關(guān)閉日志采集后,EMR的健康檢查和技術(shù)支持將受到限制,但其他功能仍可正常使用。如何關(guān)閉及影響詳情,請(qǐng)參見(jiàn)如何停止采集服務(wù)日志?

    元數(shù)據(jù)

    DLF統(tǒng)一元數(shù)據(jù)

    表示元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖構(gòu)建DLF中。

    系統(tǒng)會(huì)為您選擇默認(rèn)的DLF數(shù)據(jù)目錄,如果您不同集群期望使用不同的數(shù)據(jù)目錄,可以單擊創(chuàng)建數(shù)據(jù)目錄

    說(shuō)明

    選擇該方式時(shí),需要開(kāi)通阿里云數(shù)據(jù)湖構(gòu)建服務(wù)。

    集群存儲(chǔ)根路徑

    1366993922******

    當(dāng)您在可選服務(wù)區(qū)域選擇了OSS-HDFS服務(wù)時(shí),需要配置該參數(shù),如果選擇的是HDFS服務(wù),則無(wú)需配置該參數(shù)。

    說(shuō)明
    • 在選擇使用OSS-HDFS服務(wù)之前,請(qǐng)確保您選擇的地域支持該服務(wù)。否則,您可以嘗試更換地域或使用HDFS服務(wù)替代OSS-HDFS服務(wù)。OSS-HDFS服務(wù)目前支持的地域信息,請(qǐng)參見(jiàn)開(kāi)通并授權(quán)訪問(wèn)OSS-HDFS服務(wù)

    • EMR-5.12.1及后續(xù)版本,EMR-3.46.1及后續(xù)版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務(wù)。

    硬件配置

    付費(fèi)類型

    按量付費(fèi)

    在測(cè)試場(chǎng)景下,建議使用按量付費(fèi),測(cè)試正常后可以釋放該集群,再新建一個(gè)包年包月的生產(chǎn)集群正式使用。

    可用區(qū)

    可用區(qū) I

    集群創(chuàng)建后,無(wú)法直接更改可用區(qū),請(qǐng)謹(jǐn)慎選擇。

    專有網(wǎng)絡(luò)

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    選擇對(duì)應(yīng)區(qū)域下的專有網(wǎng)絡(luò)。如果沒(méi)有,單擊創(chuàng)建VPC前往新建。創(chuàng)建專有網(wǎng)絡(luò)完成后,單擊刷新,可以選擇剛創(chuàng)建好的VPC。

    交換機(jī)

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    選擇在對(duì)應(yīng)專有網(wǎng)絡(luò)下可用區(qū)的交換機(jī),如果在這個(gè)可用區(qū)沒(méi)有可用的交換機(jī),則需要新創(chuàng)建一個(gè)。

    默認(rèn)安全組

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上創(chuàng)建的企業(yè)安全組。

    如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個(gè)安全組。

    節(jié)點(diǎn)組

    打開(kāi)Master節(jié)點(diǎn)組下的掛載公網(wǎng)開(kāi)關(guān),其余使用默認(rèn)值即可。

    您可以根據(jù)業(yè)務(wù)訴求,配置Master節(jié)點(diǎn)組、Core節(jié)點(diǎn)組或Task節(jié)點(diǎn)組信息。詳情請(qǐng)參見(jiàn)選型配置說(shuō)明

    基礎(chǔ)配置

    集群名稱

    Emr-DataLake

    集群的名字,長(zhǎng)度限制為1~64個(gè)字符,僅可使用中文、字母、數(shù)字、短劃線(-)和下劃線(_)。

    身份憑證

    密碼。

    用于遠(yuǎn)程登錄集群的Master節(jié)點(diǎn)。

    登錄密碼確認(rèn)密碼

    自定義密碼。

    請(qǐng)記錄該配置,登錄集群時(shí)您需要輸入該密碼。

  3. 選中服務(wù)協(xié)議,單擊確認(rèn)訂單

    在EMR on ECS頁(yè)面,當(dāng)集群狀態(tài)顯示為運(yùn)行中時(shí),表示集群創(chuàng)建成功。更多集群參數(shù)信息,請(qǐng)參見(jiàn)創(chuàng)建集群

步驟二:創(chuàng)建工作空間

  1. 登錄DataWorks控制臺(tái)

  2. 單擊創(chuàng)建工作空間

  3. 配置工作空間基本信息。

    配置項(xiàng)

    示例

    描述

    工作空間名稱

    emr_dataworks

    工作空間名稱的長(zhǎng)度需要在3~23個(gè)字符,以字母開(kāi)頭,且只能包含字母、下劃線(_)和數(shù)字。

    生產(chǎn)、開(kāi)發(fā)環(huán)境隔離

    定義工作空間模式。

    • 是:需隔離生產(chǎn)、開(kāi)發(fā)環(huán)境,該方式創(chuàng)建的工作空間為標(biāo)準(zhǔn)模式工作空間。

    • 否:無(wú)需隔離生產(chǎn)、開(kāi)發(fā)環(huán)境,該方式創(chuàng)建的工作空間為簡(jiǎn)單模式工作空間。

  4. 單擊提交,工作空間創(chuàng)建完成。

步驟三:綁定E-MapReduce

在DataWorks上使用EMR的詳細(xì)開(kāi)發(fā)流程,可以參見(jiàn)DataWorks On EMR使用說(shuō)明

  1. 工作空間創(chuàng)建完后,在創(chuàng)建工作空間面板中,單擊E-MapReduce區(qū)域的立即綁定

  2. 綁定E-MapReduce頁(yè)面,單擊綁定并進(jìn)入下一步

  3. 在開(kāi)源集群頁(yè)面,單擊注冊(cè)集群

  4. 注冊(cè)E-MapReduce集群頁(yè)面,配置相關(guān)參數(shù),單擊完成注冊(cè)

    參數(shù)

    示例

    描述

    集群顯示名稱

    dataworks_test

    定義集群在DataWorks中的名稱,名稱必須唯一。

    集群所屬云賬號(hào)

    當(dāng)前阿里云主賬號(hào)

    選擇需要將哪個(gè)賬號(hào)下的EMR集群注冊(cè)至當(dāng)前工作空間。

    集群類型

    數(shù)據(jù)湖(DataLake)

    選擇需要綁定的EMR集群類型。

    集群

    Emr-DataLake

    選擇需要綁定在DataWorks上運(yùn)行任務(wù)的EMR集群。

    默認(rèn)訪問(wèn)身份

    集群賬號(hào):hadoop

    定義在當(dāng)前工作空間下,使用什么身份訪問(wèn)該EMR集群。

  5. EMR集群頁(yè)面,單擊資源組初始化

    可以對(duì)需要使用的資源組進(jìn)行初始化,驗(yàn)證獨(dú)享調(diào)度資源組和EMR引擎的網(wǎng)絡(luò)連通性。

    說(shuō)明
    • DataWorks僅支持使用獨(dú)享調(diào)度資源組運(yùn)行EMR任務(wù),所以此處僅支持選擇獨(dú)享調(diào)度資源組進(jìn)行資源組初始化操作。

    • 資源組初始化可能導(dǎo)致正在運(yùn)行的任務(wù)失敗。非必要場(chǎng)景(例如,集群配置變更,需要立即重新初始化資源組,否則會(huì)導(dǎo)致大量任務(wù)運(yùn)行失敗),建議在業(yè)務(wù)低峰期對(duì)資源組執(zhí)行初始化操作。

步驟四:數(shù)據(jù)開(kāi)發(fā)和治理

操作

描述

文檔

數(shù)據(jù)開(kāi)發(fā)

您可以根據(jù)業(yè)務(wù)需要,選擇合適的節(jié)點(diǎn)類型進(jìn)行EMR任務(wù)開(kāi)發(fā)。

元數(shù)據(jù)管理

數(shù)據(jù)地圖通過(guò)元數(shù)據(jù)采集方式管理EMR元數(shù)據(jù)。您可以在數(shù)據(jù)地圖中查看EMR表元數(shù)據(jù)、產(chǎn)出信息和血緣等功能。

數(shù)據(jù)地圖

數(shù)據(jù)質(zhì)量監(jiān)控

數(shù)據(jù)質(zhì)量提供對(duì)調(diào)度任務(wù)產(chǎn)出的表數(shù)據(jù)的質(zhì)量監(jiān)控能力,您可以通過(guò)配置表的質(zhì)量監(jiān)控規(guī)則實(shí)現(xiàn)對(duì)表數(shù)據(jù)的監(jiān)控。

說(shuō)明

DataLake和自定義類型集群配置質(zhì)量規(guī)則時(shí),您需選擇dqc_emr_plugin_datalake插件。

任務(wù)運(yùn)維監(jiān)控

智能監(jiān)控提供調(diào)度任務(wù)執(zhí)行狀態(tài)的監(jiān)控能力,您可以通過(guò)配置智能監(jiān)控規(guī)則實(shí)現(xiàn)任務(wù)運(yùn)行狀態(tài)的監(jiān)控。