本教程以用戶畫像為例,在華東2(上海)地域演示如何使用DataWorks完成數據同步、數據加工和質量監(jiān)控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的 EMR Serverless Spark空間、DataWorks工作空間,并進行相關的環(huán)境配置。
DataWorks產品準備
本案需確保您已開通DataWorks產品,若您賬號下沒有DataWorks產品,需在大數據開發(fā)治理平臺 DataWorks頁面進行開通,詳情請參見:購買指引。
EMR Serverless Spark 工作空間準備
本案例采用EMR Serverless Spark進行實驗,請確保您已擁有Spark空間,若您沒有Spark空間,需在E-MapReduce Serverless Spark 版頁面進行開通。
地域:華東2(上海)。
付費類型:按量付費。
工作空間名稱:自定義名稱即可。
DLF 作為元數據服務:選擇需要綁定的 DLF 數據目錄(Catalog),如不同 EMR 集群期望元數據完全隔離,請選擇不同的 Catalog。
工作空間基礎路徑:請選擇一個 OSS Bucket 路徑,用于存儲任務作業(yè)的日志文件。
工作空間類型:本實驗選擇專業(yè)版。
說明專業(yè)版:該工作空間包含所有基礎版的功能,以及高級特性和性能改進項。更適合大規(guī)模 ETL 作業(yè)。
基礎版:該工作空間包含所有基礎功能,以及提供具有優(yōu)勢的計算引擎。
私有OSS環(huán)境準備
本教程需要您創(chuàng)建一個OSS Bucket,后續(xù)會將用戶信息和網站訪問日志信息同步到OSS Bucket中,用于數據建模和數據分析。
登錄OSS控制臺。
在左側導航欄,單擊Bucket列表,在Bucket列表頁面,單擊創(chuàng)建Bucket。
在創(chuàng)建Bucket對話框中,配置各項參數,單擊完成創(chuàng)建。
Bucket名稱:自定義。
地域:選擇華東2(上海)。
HDFS服務:根據界面提示打開HDFS服務開關。
更多參數說明請參見控制臺創(chuàng)建存儲空間。
在Bucket列表頁單擊相應的Bucket名稱,進入Bucket的文件管理頁面。
DataWorks環(huán)境準備
在準備好DataWorks、EMR Serverless Spark以及OSS對象存儲產品后,可以在DataWorks內創(chuàng)建工作空間、新增注冊Spark集群以及創(chuàng)建數據源,為后續(xù)的同步數據、加工數據提供環(huán)境。
創(chuàng)建DataWorks工作空間
登錄DataWorks控制臺。
單擊左側導航欄上的工作空間列表,進入空間列表頁面。
單擊創(chuàng)建工作空間,在左側彈出的創(chuàng)建工作空間面板內新建生產、開發(fā)環(huán)境隔離的標準模式空間。
因本示例提供的數據資源都在華東2(上海),建議您將工作空間創(chuàng)建在華東2(上海),以避免工作空間創(chuàng)建在其它區(qū)域,添加數據源時出現網絡不可達的情況,如果您想要更簡便的操作可以在生產、環(huán)境是否隔離這一參數處選擇否。
創(chuàng)建資源組
在使用DataWorks前,必須新建資源組,為數據同步與調度提供運行資源,所以需要確保資源組與Serverless Spark之間的網絡正常聯通。
購買Serverless資源組。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
單擊新建資源組,在資源組購買頁面,選擇地域和可用區(qū)為華東2(上海)、設置資源組名稱,其他參數可根據界面提示進行配置,完成后根據界面提示完成付款。Serverless資源組的計費說明請參見Serverless資源組計費。
說明本教程將使用華東2(上海)地域的Serverless資源組進行示例演示,需注意Serverless資源組不支持跨地域操作。
配置Serverless資源組。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
找到購買的Serverless資源組,單擊操作列的修改歸屬工作空間,根據界面提示將資源組綁定至已創(chuàng)建的DataWorks工作空間。
為資源組配置公網訪問能力。
登錄專有網絡-公網NAT網關控制臺,在頂部菜單欄切換至華東2(上海)地域。
單擊創(chuàng)建NAT網關。配置相關參數。
參數
取值
所屬地域
華東2(上海)。
所屬專有網絡
選擇資源組綁定的VPC和交換機。
您可以前往DataWorks管理控制臺,切換地域后,在左側導航欄單擊資源組列表,找到已創(chuàng)建的資源組,然后單擊操作列的網絡設置,在數據調度 & 數據集成區(qū)域查看綁定的專有網絡和交換機。VPC和交換機的更多信息,請參見什么是專有網絡。
關聯交換機
訪問模式
VPC全通模式(SNAT)。
彈性公網IP
新購彈性公網IP。
關聯角色創(chuàng)建
首次創(chuàng)建NAT網關時,需要創(chuàng)建服務關聯角色,請單擊創(chuàng)建關聯角色。
說明上表中未說明的參數保持默認值即可。
單擊立即購買,勾選服務協議后,單擊確認訂單,完成購買。
注冊EMR Serverless Spark集群
用戶畫像分析的流程中的數據存儲與數據處理,將在EMR Serverless Spark集群中進行,需您提前注冊好相應的Spark集群。
進入管理中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
單擊左側導航欄的集群管理進入集群管理頁面后,單擊注冊集群,即可在彈窗內選擇E-MapReduce,進行配置EMR Serverless Spark集群。
注冊E-MapReduce 集群
集群顯示名稱:自定義即可。
集群所屬云賬號:選擇當前阿里云主賬號。
集群類型:EMR Serverless Spark。
E-MapReduce工作空間:選擇準備的EMR Serverless Spark 工作空間準備。
默認引擎版本:在DataStudio中新建EMR Spark任務時,將會默認使用該引擎版本。如需面向不同任務設置不同的引擎版本,請在Spark任務編輯窗口的“高級設置”中進行定義。
默認資源隊列:在DataStudio中新建EMR Spark任務時,將會默認使用該資源隊列。如需面向不同任務設置不同的資源隊列,請在Spark任務編輯窗口的“高級設置”中進行定義。
默認SQL Compute:在DataStudio中新建EMR Spark SQL任務時,將會默認使用該SQL Compute。如需面向不同任務設置不同的SQL Compute,請在Spark任務編輯窗口的“高級設置”中進行定義。
默認訪問身份:開發(fā)環(huán)境默認為執(zhí)行者,生產環(huán)境可選擇阿里云主賬號、阿里云RAM子賬號、任務責任人。
說明本教程配置如上,若您的場景與此不同,可參考注冊EMR集群至DataWorks。
創(chuàng)建數據源
本教程為您提供了存儲用戶信息數據的MySQL數據庫,以及存儲用戶日志數據的OSS對象存儲,需要在DataWorks上將其創(chuàng)建為數據源以供數據同步使用。
平臺已提供本教程所需的測試數據及數據源,您需將該數據源添加至您的工作空間,即可在工作空間訪問平臺提供的測試數據。
本教程提供數據僅作為阿里云大數據開發(fā)治理平臺DataWorks數據應用實操使用,所有數據均為人工Mock數據,并且只支持在數據集成模塊讀取數據。
在私有OSS環(huán)境準備步驟中創(chuàng)建的OSS對象存儲的Bucket將用于接收MySQL數據源的用戶信息數據與HttpFile的日志數據信息。
創(chuàng)建MySQL數據源
本次實驗創(chuàng)建MySQL數據源的數據庫由平臺提供,作為數據集成任務的數據來源,提供用戶信息數據。
在管理中心頁面,單擊進入 頁面后單擊新增數據源。
在新增數據源對話框中,搜索選擇數據源類型為MySQL。
在創(chuàng)建MySQL數據源對話框,配置各項參數。本教程需按示例值填寫。
參數
描述
數據源名稱
輸入數據源名稱,本教程請?zhí)顚?span data-tag="parmname" id="parmname-1ai-ark-4ct" class="parmname">user_behavior_analysis_mysql。
數據源描述
輸入DataWorks案例體驗專用數據源,在離線同步配置時讀取該數據源即可訪問平臺提供的測試數據,該數據源只支持數據集成場景讀取,其他模塊不支持使用。
配置模式
選擇連接串模式
連接地址
主機地址IP:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com
端口號:
3306
數據庫名稱
輸入數據庫名,本教程請?zhí)顚?code data-tag="code" code-type="xCode" class="code">workshop·
用戶名
輸入用戶名,本教程請?zhí)顚?span data-tag="parmname" id="parmname-zzx-hr1-5he" class="parmname">workshop。
密碼
輸入密碼,本教程請?zhí)顚?span data-tag="parmname" id="parmname-n23-gqp-99h" class="parmname">workshop#2017。
認證選項
無認證。
單擊指定的資源組連通狀態(tài)列的測試連通性,等待界面提示測試完成,連通狀態(tài)為可連通。
單擊完成。
創(chuàng)建HttpFile數據源
本次實驗創(chuàng)建HttpFile數據源為OSS對象存儲,該OSS對象存儲由平臺提供,作為數據集成任務的數據來源側提供日志數據。
進入數據源頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
進入工作空間管理中心頁面后,單擊左側導航欄的
,進入數據源頁面。
單擊新增數據源
在新增數據源對話框中,搜索選擇數據源類型為HttpFile。
在創(chuàng)建HttpFile數據源對話框中,配置各項參數。本教程需按示例值填寫。
參數
描述
數據源名稱
輸入數據源名稱,本教程請?zhí)顚?span data-tag="parmname" id="parmname-1cx-ppr-i8w" class="parmname">user_behavior_analysis_httpfile。
數據源描述
輸入DataWorks案例體驗專用數據源,在離線同步配置時讀取該數據源即可訪問平臺提供的測試數據,該數據源只支持數據集成場景去讀取,其他模塊不支持使用。
適用環(huán)境
勾選開發(fā)和生產。
說明開發(fā)環(huán)境的數據源創(chuàng)建完成后,需要勾選生產,以同樣方式創(chuàng)建生產環(huán)境的數據源,否則任務生產執(zhí)行會報錯。
URL域名
輸入
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。單擊指定的資源組連通狀態(tài)列的測試連通性,等待界面提示測試完成,連通狀態(tài)為可連通。
重要需確保至少一個資源組為可連通狀態(tài),否則此數據源無法使用向導模式創(chuàng)建同步任務。
單擊完成創(chuàng)建。
添加私有OSS數據源
本次實驗創(chuàng)建私有OSS數據源的OSS對象存儲需您自行準備,將作為數據集成的數據去向來接收用戶信息數據與用戶日志信息數據。
該私有OSS數據源指的是您自己的OSS對象存儲創(chuàng)建的OSS數據源,用來存儲從DataWorks文檔提供的MySQL中導入的用戶信息數據與存儲從DataWorks文檔提供的OSS對象存儲創(chuàng)建的HttpFile數據源中導入的日志數據。
在管理中心頁面,單擊進入 頁面后單擊新增數據源。
在新增數據源對話框中,搜索選擇數據源類型為OSS。
在新增OSS數據源對話框中,配置各項參數。
參數
描述
數據源名稱
輸入數據源的名稱,本示例為test_g。
數據源描述
對數據源進行簡單描述。
Endpoint
輸入
http://oss-cn-shanghai-internal.aliyuncs.com
Bucket
您準備環(huán)境時創(chuàng)建的OSS Bucket的名稱,示例為dw-emr-demo
訪問模式
RAM角色授權模式
通過STS授權的方式允許云產品服務賬號扮演相關角色來訪問數據源,具備更高安全性,詳見:通過RAM角色授權模式配置數據源。
Access Key模式
AccessKey ID
當前登錄賬號的AccessKey ID,您可以進入安全信息管理頁面復制AccessKey ID。
AccessKey Secret
輸入當前登錄賬號的AccessKey Secret。
重要AccessKey Secret只在創(chuàng)建時顯示,不支持后續(xù)再次查看,請妥善保管。如果AccessKey泄露或丟失,請刪除并創(chuàng)建新的AccessKey。
說明訪問模式在RAM角色授權模式和Access Key模式選擇其一即可。
單擊指定資源組連通狀態(tài)列的測試連通性,等待界面提示測試完成,連通狀態(tài)為可連通。
重要需確保至少一個資源組為可連通狀態(tài),否則此數據源無法使用向導模式創(chuàng)建同步任務。
單擊完成。
后續(xù)步驟
現在,您已經完成了環(huán)境的準備,可以繼續(xù)下一個教程。在下一個教程中,您將學習如何將用戶基本信息數據、用戶網站訪問日志數據同步至OSS中,再通過Spark SQL創(chuàng)建外部表來訪問私有OSS數據存儲。詳情請參見同步數據。