本教程以用戶畫像分析為例,通過使用DataWorks完成數據同步、數據加工、質量監控的全流程操作。為保證您可以順利完成本教程,您需要準備教程所需的EMR集群、DataWorks工作空間,并做好相關的環境配置。
前提條件
步驟一:創建OSS Bucket
本教程需要您創建一個OSS Bucket,后續會將用戶信息和網站訪問日志信息同步到OSS Bucket中,用于數據建模和數據分析。
步驟二:創建EMR集群
本教程需要您創建一個EMR集群,用于集成到DataWorks,使得您能夠在DataWorks平臺上執行基于EMR集群的數據處理任務。
具體操作,請參見創建集群。在創建EMR集群進行軟件配置時,關鍵參數配置如下:
地域:選擇華東2(上海)。
業務場景:選擇新版數據湖。
產品版本:選擇最新版本。
可選服務:根據實際需求選擇組件,其中Hive組件在本案例中必選。
元數據:選擇DLF統一元數據。
集群存儲根路徑:選擇步驟一中創建的已開通HDFS服務的OSS Bucket。
對于EMR集群的不同配置,DataWorks產品支持情況存在一定差異。如果您需要在DataWorks上進行EMR任務開發,建議您在創建EMR集群前先參考DataWorks on EMR集群配置最佳實踐。
步驟三:創建DataWorks工作空間
在DataWorks工作空間里進行任務開發前您需要先創建一個DataWorks工作空間。
因本示例提供的數據資源都在華東2(上海),建議您將工作空間創建在華東2(上海),以避免工作空間創建在其它區域,添加數據源出現網絡不可達的情況。為了簡化您的操作流程,建議您在生產、環境是否隔離這一參數處選擇否。
登錄DataWorks控制臺。
單擊左側導航欄中的工作空間。進入工作空間列表頁面。
將頁面頂部導航欄的地域列表切換為華東2(上海)地域。
單擊創建工作空間,輸入工作空間名稱。具體操作,請參見創建工作空間。
步驟四:配置DataWorks on EMR開發環境
在DataWorks上運行EMR作業前,您需要配置如下開發環境:
購買并配置Serverless資源組。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
找到購買的Serverless資源組,單擊操作列的綁定工作空間,根據界面提示將資源組綁定至已創建的DataWorks工作空間。
為資源組配置公網訪問能力。
登錄專有網絡-公網NAT網關控制臺,在頂部菜單欄切換至華東2(上海)地域。
單擊創建公網NAT網關。配置相關參數。
參數
取值
所屬地域
華東2(上海)。
所屬專有網絡
選擇資源組綁定的VPC和交換機。
您可以前往DataWorks管理控制臺,切換地域后,在左側導航欄單擊資源組列表,找到已創建的資源組,然后單擊操作列的網絡設置,在數據調度 & 數據集成區域查看綁定的專有網絡和交換機。VPC和交換機的更多信息,請參見什么是專有網絡。
關聯交換機
訪問模式
VPC全通模式(SNAT)。
彈性公網IP
新購彈性公網IP。
關聯角色創建
首次創建NAT網關時,需要創建服務關聯角色,請單擊創建關聯角色。
說明上表中未說明的參數保持默認值即可。
單擊立即購買,勾選服務協議后,單擊確認訂單,完成購買。
(可選)添加工作空間成員并授權。
只有工作空間成員才可以在DataStudio內運行EMR任務。您可以將其他RAM用戶添加為工作空間成員,詳情請參見空間級模塊權限管控。
說明阿里云主賬號和創建工作空間的RAM用戶自動成為工作空間的成員,且角色為空間管理員。
注冊EMR集群至DataWorks并初始化資源組。
只有將集群注冊至DataWorks,才可以在DataWorks上使用EMR集群。詳情請參見注冊EMR集群至DataWorks。
重要初始化資源組時,請務必確保初始化成功,否則可能導致任務運行失敗。如果初始化失敗,請根據界面提示查看失敗原因并進行連通性診斷。
關鍵參數配置如下:
集群所屬云賬號:選擇當前阿里云主賬號。
集群類型:選擇數據湖(DataLake)。
默認訪問身份:選擇集群賬號:hadoop。