日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

準備環境

本教程以用戶畫像分析為例,通過使用DataWorks完成數據同步、數據加工、質量監控的全流程操作。為保證您可以順利完成本教程,您需要準備教程所需的EMR集群、DataWorks工作空間,并做好相關的環境配置。

前提條件

  • 大數據開發治理平臺DataWorks:購買DataWorks,詳情請參見購買指引

    說明

    因本示例提供的數據資源都在華東2(上海),建議購買時選擇地域為華東2(上海)。

  • 對象存儲OSS:已開通OSS服務,具體步驟,請參見開通OSS服務

步驟一:創建OSS Bucket

本教程需要您創建一個OSS Bucket,后續會將用戶信息和網站訪問日志信息同步到OSS Bucket中,用于數據建模和數據分析。

  1. 登錄OSS控制臺

  2. 在左側導航欄,單擊Bucket列表,在Bucket列表頁面,單擊創建Bucket

  3. 創建Bucket對話框中,配置各項參數,單擊完成創建

    • Bucket名稱:自定義。

    • 地域:選擇華東2(上海)

    • HDFS服務:根據界面提示打開HDFS服務開關。

      更多參數說明請參見控制臺創建存儲空間

  4. 在Bucket列表頁單擊相應的Bucket名稱,進入Bucket的文件管理頁面。

步驟二:創建EMR集群

本教程需要您創建一個EMR集群,用于集成到DataWorks,使得您能夠在DataWorks平臺上執行基于EMR集群的數據處理任務。

具體操作,請參見創建集群。在創建EMR集群進行軟件配置時,關鍵參數配置如下:

  • 地域:選擇華東2(上海)

  • 業務場景:選擇新版數據湖

  • 產品版本:選擇最新版本。

  • 可選服務:根據實際需求選擇組件,其中Hive組件在本案例中必選。

  • 元數據:選擇DLF統一元數據

  • 集群存儲根路徑:選擇步驟一中創建的已開通HDFS服務的OSS Bucket。

說明

對于EMR集群的不同配置,DataWorks產品支持情況存在一定差異。如果您需要在DataWorks上進行EMR任務開發,建議您在創建EMR集群前先參考DataWorks on EMR集群配置最佳實踐

步驟三:創建DataWorks工作空間

在DataWorks工作空間里進行任務開發前您需要先創建一個DataWorks工作空間。

說明

因本示例提供的數據資源都在華東2(上海),建議您將工作空間創建在華東2(上海),以避免工作空間創建在其它區域,添加數據源出現網絡不可達的情況。為了簡化您的操作流程,建議您在生產、環境是否隔離這一參數處選擇

  1. 登錄DataWorks控制臺

  2. 單擊左側導航欄中的工作空間。進入工作空間列表頁面。

  3. 將頁面頂部導航欄的地域列表切換為華東2(上海)地域。

  4. 單擊創建工作空間,輸入工作空間名稱。具體操作,請參見創建工作空間

步驟四:配置DataWorks on EMR開發環境

在DataWorks上運行EMR作業前,您需要配置如下開發環境:

  1. 購買并配置Serverless資源組。

    1. 登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。

    2. 找到購買的Serverless資源組,單擊操作列的綁定工作空間,根據界面提示將資源組綁定至已創建的DataWorks工作空間。

    3. 為資源組配置公網訪問能力。

      1. 登錄專有網絡-公網NAT網關控制臺,在頂部菜單欄切換至華東2(上海)地域。

      2. 單擊創建公網NAT網關。配置相關參數。

        參數

        取值

        所屬地域

        華東2(上海)。

        所屬專有網絡

        選擇資源組綁定的VPC和交換機。

        您可以前往DataWorks管理控制臺,切換地域后,在左側導航欄單擊資源組列表,找到已創建的資源組,然后單擊操作列的網絡設置,在數據調度 & 數據集成區域查看綁定的專有網絡交換機。VPC和交換機的更多信息,請參見什么是專有網絡

        關聯交換機

        訪問模式

        VPC全通模式(SNAT)。

        彈性公網IP

        新購彈性公網IP。

        關聯角色創建

        首次創建NAT網關時,需要創建服務關聯角色,請單擊創建關聯角色

        說明

        上表中未說明的參數保持默認值即可。

      3. 單擊立即購買,勾選服務協議后,單擊確認訂單,完成購買。

  2. (可選)添加工作空間成員并授權。

    只有工作空間成員才可以在DataStudio內運行EMR任務。您可以將其他RAM用戶添加為工作空間成員,詳情請參見空間級模塊權限管控

    說明

    阿里云主賬號和創建工作空間的RAM用戶自動成為工作空間的成員,且角色為空間管理員。

  3. 注冊EMR集群至DataWorks并初始化資源組。

    只有將集群注冊至DataWorks,才可以在DataWorks上使用EMR集群。詳情請參見注冊EMR集群至DataWorks

    重要

    初始化資源組時,請務必確保初始化成功,否則可能導致任務運行失敗。如果初始化失敗,請根據界面提示查看失敗原因并進行連通性診斷。

    關鍵參數配置如下:

    • 集群所屬云賬號:選擇當前阿里云主賬號

    • 集群類型:選擇數據湖(DataLake)

    • 默認訪問身份:選擇集群賬號:hadoop