本教程以用戶畫像為例,在華東2(上海)地域演示如何使用DataWorks完成數據同步、數據加工和質量監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的MaxCompute項目、DataWorks工作空間,以及數據來源、計算、存儲的配置。
業務背景
為了更好的制定企業經營策略,現需要從用戶網站行為中獲取網站用戶群體基本畫像數據,例如,用戶群體的地理屬性、社會屬性等,實現定時定點進行畫像分析,進而實現網站流量精細化運營操作。
前置條件
為了順利進行教程操作,請您務必閱讀實驗介紹,充分了解用戶畫像分析實驗整體流程。
注意事項
本實驗提供教程所需用戶信息數據與網站訪問測試數據,您可直接使用。
本實驗提供數據僅作為阿里云大數據開發治理平臺DataWorks數據應用實操使用,所有數據均為人工Mock數據。
MaxCompute環境準備
開通MaxCompute產品
本案例采用MaxCompute進行實驗,請確保您已擁有MaxCompute項目,若您沒有MaxCompute實例,則需開通MaxCompute,以下為本教程開通時所選參數。
區域:華東2(上海)
規格類型:標準計算資源。
新建MaxCompute項目
DataWorks標準工作空間下,需綁定開發和生產兩個MaxCompute項目。
進入MaxCompute工作臺,單擊左側菜單進入 頁面。
單擊新建項目按鈕,分別新建兩個MaxCompute,作為DataWorks的開發環境下的數據源以及生產環境下的數據源,詳情可參見:創建MaxCompute項目。
配置項
配置內容
項目名稱
生產環境:
workshop2024_01
。開發環境:
workshop2024_01_dev
。計算資源付費類型
本教程勾選:按量付費。
默認Quota
本教程下拉選擇:默認后付費Quota。
數據類型
本教程下拉選擇:2.0數據類型(推薦)。
是否加密
本教程勾選:不加密。
DataWorks環境準備
在DataWorks上開發前需要已開通DataWorks服務,詳情請參見DataWorks準備工作。
創建工作空間
登錄DataWorks控制臺,在左上角切換地域至擁有DataWorks服務地域。
單擊左側導航欄中的工作空間列表,進入空間列表頁面,單擊創建工作空間,創建標準模式空間(生產、開發環境隔離),詳情請參見創建工作空間。
如果已有工作空間,也可以忽略該步驟,使用已有工作空間。
本案例提供的MySQL數據源和HttpFile所處地域在華東2(上海)地域,故本案例采用華東2(上海)地域。
創建Serverless資源組
本教程需將存儲在OSS、MySQL中的數據同步至MaxCompute,同步任務需使用DataWorks的Serverless資源組,因此您需要先購買Serverless資源組,并完成前期的準備工作。
購買Serverless資源組。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
單擊新建資源組,在資源組購買頁面,選擇地域和可用區為華東2(上海)、設置資源組名稱,其他參數可根據界面提示進行配置,完成后根據界面提示完成付款。Serverless資源組的計費說明請參見Serverless資源組計費。
說明本教程將使用華東2(上海)地域的Serverless資源組進行示例演示,需注意Serverless資源組不支持跨地域操作。
配置Serverless資源組。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
找到購買的Serverless資源組,單擊操作列的綁定工作空間,根據界面提示將資源組綁定至已創建的DataWorks工作空間。
為資源組配置公網訪問能力。
登錄專有網絡-公網NAT網關控制臺,在頂部菜單欄切換至華東2(上海)地域。
單擊創建公網NAT網關。配置相關參數。
參數
取值
所屬地域
華東2(上海)。
所屬專有網絡
選擇資源組綁定的VPC和交換機。
您可以前往DataWorks管理控制臺,切換地域后,在左側導航欄單擊資源組列表,找到已創建的資源組,然后單擊操作列的網絡設置,在數據調度 & 數據集成區域查看綁定專有網絡和交換機。VPC和交換機的更多信息,請參見什么是專有網絡。
關聯交換機
訪問模式
專有網絡全通模式(SNAT)。
彈性公網IP實例
新購彈性公網IP。
關聯角色創建
首次創建NAT網關時,需要創建服務關聯角色,請單擊創建關聯角色。
說明上表中未說明的參數保持默認值即可。
單擊立即購買,勾選服務協議后,單擊立即開通,完成購買。
更多新增和使用Serverless資源組的操作指導請參見新增和使用Serverless資源組。
綁定MaxCompute項目
本教程將在DataWorks上綁定MaxCompute項目作為開發環境與生產環境的計算、存儲服務,以下將為您介紹如何將MaxCompute環境準備階段創建的MaxCompute項目綁定至DataWorks中。
單擊工作空間操作列的
。在左側導航欄單擊數據源(),然后在數據源頁面,單擊新建數據源,選擇MaxCompute。
請根據下圖指引創建并綁定MaxCompute數據源。
關鍵參數說明:
本教程數據源名稱以
user_behavior_analysis_odps
為例。所屬云賬號:配置為當前阿里云主賬號。
地域:選擇與當前DataWorks空間一致的地域華東2(上海)地域。
MaxCompute項目名稱:選擇華東2(上海)地域下已創建的MaxCompute項目:
開發環境:
workshop2024_01_dev
生產環境:
workshop2024_01
重要MaxCompute項目名稱全網唯一,不允許重名,請勿與本教程完全一致,您可以自定義項目名稱或添加唯一標識作為后綴,避免因命名沖突而報錯。
DataWorks標準環境下綁定MaxCompute項目,開發環境與生產環境必須選擇不同項目,否則無法正常綁定。
默認訪問身份:開發環境默認為執行者,生產環境可根據當前登錄賬號進行下拉選擇。
如您當前登錄的為主賬號或RAM管理員賬號:可以選擇所有身份。
如您當前登錄的為子賬號/RAM角色:
是該項目的Super_Administrator或Admin角色:可以選擇所有身份。
不是該項目的Super_Administrator或Admin角色:僅能選擇自己的身份。
Endpoint:選擇自動適配。
單擊新建數據源并綁定數據開發。
根據頁面提示,刷新數據開發數據源頁面后,即可看到已創建并綁定的MaxCompute數據源。
說明若發現創建的MaxCompute數據源呈未綁定狀態,單擊綁定按鈕進行綁定。
后續步驟
現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將用戶基本信息數據、用戶網站訪問日志數據同步至MaxCompute中。詳情請參見同步數據。DataWorks也為您提供了本教程相關代碼,您可一鍵導入網站用戶畫像分析模板,直接體驗配置數據質量監控。導入用戶畫像分析模板可參見:畫像分析模板導入。