本文以分析公共數據集的數據示例,為您展示如何使用DataWorks進行簡單數據分析工作。本教程以申請免費資源為例為您展示詳細操作步驟,您也可以使用付費資源,操作類似。
教程簡介
阿里云DataWorks基于多種大數據引擎,為數據倉庫、數據湖、湖倉一體等解決方案提供統一的全鏈路大數據開發治理平臺。
本教程通過DataWorks,聯合云原生大數據計算服務MaxCompute,使用大數據AI公共數據集(淘寶、飛豬、阿里音樂、Github、TPC等公共數據),指導您如何快速進行大數據分析,快速熟悉DataWorks的操作界面與最基礎的數據分析能力。DataWorks的更多建模、集成、開發、治理等全鏈路的數據能力可前往官方文檔進行查看。
我能學到什么
熟悉DataWorks的基礎操作界面,如登錄控制臺、創建數據源、進入子功能模塊頁面。
學習如何在DataWorks進行簡單的大數據分析操作,了解DataWorks的數據分析能力。
操作難度 | 低 |
所需時間 | 30分鐘 |
使用的阿里云產品 |
|
所需費用 |
|
準備環境和資源
開通大數據開發治理平臺DataWorks。
訪問阿里云免費試用。單擊頁面右上方的登錄/注冊按鈕,并根據頁面提示完成賬號登錄(已有阿里云賬號)、賬號注冊(尚無阿里云賬號)或實名認證(根據試用產品要求完成個人實名認證或企業實名認證)。
成功登錄后,即可進入申請免費試用DataWorks頁面,單擊大數據開發治理平臺 DataWorks產品的立即試用。
在彈出的購買試用DataWorks產品的面板上選擇開通地域為華東2(上海),勾選服務協議后單擊確認訂單并支付。
準備MaxCompute環境。
本教程還需使用MaxCompute產品,您也可以在免費試用中申請免費額度的MaxCompute資源包進行本教程的操作,申請操作請前往申請免費試用MaxCompute頁面,MaxCompute免費資源包的支持地域及免費額度介紹請參見MaxCompute新用戶免費試用額度。
【說明】:如果您此前已申請過MaxCompute的免費試用,可登錄MaxCompute控制臺后,查看華東2(上海)地域是否已開通,如果界面提示上海地域還未開通,您可單擊歡迎界面的立即開通MaxCompute進行開通。
如果您不符合免費使用MaxCompute規則,您可以開通按量計費版本的MaxCompute,計費詳情請參見MaxCompute計費概述。
創建MaxCompute項目
登錄MaxCompute控制臺,在左上角選擇地域,本教程使用的地域為華東2(上海)。單擊左側導航項目管理,在項目管理列表頁面單擊新建項目。
在彈出的新建項目配置頁面中配置項目信息,核心配置參數如表所示。
參數
說明
項目名稱
自定義項目名稱。本教程設置為doc_test_000。
說明項目名稱需全局唯一,如果界面提示您項目名稱已存在,您可根據提示修改項目名稱。
計算資源付費類型
本教程選擇:按量付費。
重要您通過免費試用選購的資源抵扣包僅可用于抵扣后付費資源消耗,本教程選擇“按量付費”。
默認Quota
用于實現計算資源分配。本教程選擇:默認后付費Quota。
單SQL消費限制
本教程不設置。本參數為單SQL消費的最高閾值。單位:掃描量(GB)*復雜度。非必填項,當選擇按量付費計費類型時建議設置,可以避免非預期的單SQL消費過高。同時也建議配置實時消費監控告警,多方位監控限制消費超出預期,詳情請參見消費監控告警。
數據類型
MaxCompute數據類型包含1.0數據類型、2.0數據類型和Hive兼容類型。本教程選擇:2.0數據類型。
是否加密
指定創建的MaxCompute項目是否需要開啟數據加密功能。更多數據加密信息,請參見存儲加密。
本教程選擇:不加密。
完成配置后單擊確定,完成項目創建。
新增MaxCompute數據源
本教程使用的地域為華東2(上海)默認工作空間。
進入管理中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
在管理中心頁面,單擊左側導航創建MaxCompute數據源。
后,在頁面上單擊新增數據源,然后在彈窗內選擇MaxCompute數據源,配置MaxCompute數據源詳情請參見完成配置后單擊完成創建,完成數據源的增加。
數據查詢體驗
本教程中使用阿里電商數據集(bigdata_public_dataset.commerce.commerce_ali_e_commerce),該數據集來源于天池阿里移動推薦算法挑戰賽,擁有100萬條脫敏后的行為數據(包括點擊、購買、加購、喜歡)。
DataWorks為您準備了豐富的數據集,可直接體驗DataWorks的開發與分析能力,簡單的SQL查詢操作界面、輕松上手數據分析,還可以生成分析結果并分享給同事。
登錄并進入DataWorks控制臺,在左上角選擇地域,本教程使用的地域為華東2(上海)。
單擊左側導航欄的
,單擊阿里電商數據集,進入阿里電商數據集詳情頁。單擊右上角的開始分析,選擇您需要體驗的引擎類型。本教程使用的是MaxCompute。
在新打開的DataWorks SQL查詢頁面中,會創建一個新的SQL查詢頁面,并顯示公共數據集的默認顯示SQL。單擊SQL查詢文件右上角的,在彈框中設置工作空間及引擎信息。
完成設置后,您即可在SQL文件中進行數據查詢命令開發,完成后可單擊SQL查詢文件操作欄中的運行按鈕,運行成功后,在SQL文件下方會顯示查詢結果。
本教程為您提供了一些查詢示例SQL命令,您可參見下文的附錄:數據查詢SQL示例,進行數據查詢分析。
增強分析-創建卡片
單擊查詢結果區域左側欄的,DataWorks會默認為您生成一個可視化的圖表,將表格展現的SQL查詢結果數據通過可視化的方式展現出來。
說明首次操作時你需要先單擊我要體驗,并根據界面提示開啟增強分析對應的功能。
如系統默認生成的可視化圖表,不符合您對于數據可視化的預期,您可單擊圖表右上方的,進入圖表編輯頁面。本教程以修改圖表橫縱坐標標題為例,為您示例編輯圖表展示的操作。
單擊圖表右上方的,即可將該結果持久化保存下來并分享。
保存卡片后,您可以單擊數據分析頁面最左側導航欄中的,查看當前已保存的所有卡片。
增強分析-創建報告
數據分析結果保存在DataWorks-卡片中后,您可以通過增強分析-報告的功能,將卡片組織為有圖表、有描述、有邏輯的分析報告,便于一鍵將分析報告分享給伙伴、同事。
單擊數據分析頁面左側導航欄中的,進入報告頁面。
單擊右上角的創建報告,根據界面提示選擇需要生成報告的數據分析結果卡片。
配置數據分析報告頁面內容與主題風格,完成后單擊右上角的創建,完成報告創建。
返回報告列表頁面后,您可以將鼠標懸浮到需要分享給其他人的報告上,單擊右上角的分享按鈕,根據界面提示即可獲得分享鏈接。后續可將分享鏈接發送給分享對象。
您可單擊此處查看分析報告分享鏈接示例。
附錄:數據查詢SQL示例
用戶購物行為時間趨勢
SET odps.namespace.schema = TRUE; SELECT CAST(SUBSTR(behavior_time,12) AS BIGINT) AS 時間段 ,CASE WHEN behavior_type = '1' THEN '商品頁瀏覽' WHEN behavior_type = '3' THEN '加入購物車' WHEN behavior_type = '4' THEN '購買成功' ELSE behavior_type END AS 用戶操作 ,COUNT(DISTINCT user_id) AS 用戶數 FROM bigdata_public_dataset.commerce.commerce_ali_e_commerce WHERE behavior_type IN ('1','3','4') GROUP BY 時間段 ,用戶操作 order by 時間段 asc;
不同時間段的頁面訪問次數
SET odps.namespace.schema = true; set odps.task.sql.sqa.enable=false; SELECT CASE WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '00點-03點' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '04點-07點' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '08點-11點' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12點-15點' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16點-19點' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20點-23點' END AS 時間段 ,COUNT(1) AS 頁面訪問次數 FROM bigdata_public_dataset.commerce.commerce_ali_e_commerce WHERE behavior_type = '1' GROUP BY 時間段 ORDER BY 時間段 ASC LIMIT 100;
TOP10熱銷商品品類
SET odps.namespace.schema = true; SELECT item_category as 商品品類ID,COUNT(DISTINCT item_id) AS 商品數量 FROM bigdata_public_dataset.commerce.commerce_ali_e_commerce WHERE behavior_type = '4' group by item_category order by 商品數量 desc limit 10;
清理
完成教程后,請及時清理測試數據和試用資源。
MaxCompute資源清理。
本教程使用了MaxCompute計算引擎,在體驗完成本教程后,如果后續您不再使用的話,請及時將MaxCompute資源釋放,否則MaxCompute會繼續計費。釋放操作請參見資源釋放。
DataWorks資源清理。
本教程使用了免費的基礎版DataWorks的SQL分析模塊,基礎版DataWorks的SQL分析任務運行結束后不會收取其他費用,如果您使用了DataWorks的其他功能模塊,使用了DataWorks的資源組運行了其他周期任務,請及時將DataWorks周期任務暫停,避免造成資源組的浪費。
您可以進入運維中心的周期任務運維頁面暫停周期任務,操作詳情請參見查看并管理周期任務。