日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

大數據AI公共數據集分析

本文以分析公共數據集的數據示例,為您展示如何使用DataWorks進行簡單數據分析工作。本教程以申請免費資源為例為您展示詳細操作步驟,您也可以使用付費資源,操作類似。

教程簡介

阿里云DataWorks基于多種大數據引擎,為數據倉庫、數據湖、湖倉一體等解決方案提供統一的全鏈路大數據開發治理平臺。

本教程通過DataWorks,聯合云原生大數據計算服務MaxCompute,使用大數據AI公共數據集(淘寶、飛豬、阿里音樂、Github、TPC等公共數據),指導您如何快速進行大數據分析,快速熟悉DataWorks的操作界面與最基礎的數據分析能力。DataWorks的更多建模、集成、開發、治理等全鏈路的數據能力可前往官方文檔進行查看。

我能學到什么

  • 熟悉DataWorks的基礎操作界面,如登錄控制臺、創建數據源、進入子功能模塊頁面。

  • 學習如何在DataWorks進行簡單的大數據分析操作,了解DataWorks的數據分析能力。

操作難度

所需時間

30分鐘

使用的阿里云產品

  • DataWorks:一站式大數據開發與治理平臺,創建數據源并在數據開發綁定數據源后可在DataWorks上開發調度對應引擎的數據開發治理任務。

  • MaxCompute:適用于數據分析場景的企業級SaaS模式云數據倉庫,為海量數據提供豐富的計算和存儲能力。

所需費用

  • DataWorks:

    • 產品版本:阿里云為您提供了免費的基礎版DataWorks。

    • 增強分析:阿里云為您提供了免費的使用額度,超出額度后將收取相應費用。計費詳情請參見增強分析計費說明

  • MaxCompute:阿里云免費試用為您提供一定額度的免費MaxCompute資源包,您可使用該資源包免費試用本教程。如果您的操作超出了免費資源包的額度,則需收取相應的費用。計費詳情請參見MaxCompute計費概述

準備環境和資源

  1. 開通大數據開發治理平臺DataWorks。

    1. 訪問阿里云免費試用。單擊頁面右上方的登錄/注冊按鈕,并根據頁面提示完成賬號登錄(已有阿里云賬號)、賬號注冊(尚無阿里云賬號)或實名認證(根據試用產品要求完成個人實名認證或企業實名認證)。

    2. 成功登錄后,即可進入申請免費試用DataWorks頁面,單擊大數據開發治理平臺 DataWorks產品的立即試用

    3. 在彈出的購買試用DataWorks產品的面板上選擇開通地域為華東2(上海),勾選服務協議后單擊確認訂單并支付

  2. 準備MaxCompute環境。

創建MaxCompute項目

  1. 登錄MaxCompute控制臺,在左上角選擇地域,本教程使用的地域為華東2(上海)。單擊左側導航項目管理,在項目管理列表頁面單擊新建項目

  2. 在彈出的新建項目配置頁面中配置項目信息,核心配置參數如表所示。

    參數

    說明

    項目名稱

    自定義項目名稱。本教程設置為doc_test_000

    說明

    項目名稱需全局唯一,如果界面提示您項目名稱已存在,您可根據提示修改項目名稱。

    計算資源付費類型

    本教程選擇:按量付費

    重要

    您通過免費試用選購的資源抵扣包僅可用于抵扣后付費資源消耗,本教程選擇“按量付費”。

    默認Quota

    用于實現計算資源分配。本教程選擇:默認后付費Quota

    單SQL消費限制

    本教程不設置。本參數為單SQL消費的最高閾值。單位:掃描量(GB)*復雜度。非必填項,當選擇按量付費計費類型時建議設置,可以避免非預期的單SQL消費過高。同時也建議配置實時消費監控告警,多方位監控限制消費超出預期,詳情請參見消費監控告警

    數據類型

    MaxCompute數據類型包含1.0數據類型2.0數據類型Hive兼容類型。本教程選擇:2.0數據類型

    是否加密

    指定創建的MaxCompute項目是否需要開啟數據加密功能。更多數據加密信息,請參見存儲加密

    本教程選擇:不加密

  3. 完成配置后單擊確定,完成項目創建。

新增MaxCompute數據源

本教程使用的地域為華東2(上海)默認工作空間。

  1. 進入管理中心頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的更多 > 管理中心,在下拉框中選擇對應工作空間后單擊進入管理中心

  2. 管理中心頁面,單擊左側導航數據源 > 數據源列表后,在頁面上單擊新增數據源,然后在彈窗內選擇MaxCompute數據源,配置MaxCompute數據源詳情請參見創建MaxCompute數據源

  3. 完成配置后單擊完成創建,完成數據源的增加。

數據查詢體驗

本教程中使用阿里電商數據集(bigdata_public_dataset.commerce.commerce_ali_e_commerce)該數據集來源于天池阿里移動推薦算法挑戰賽,擁有100萬條脫敏后的行為數據(包括點擊、購買、加購、喜歡)。

說明

DataWorks為您準備了豐富的數據集,可直接體驗DataWorks的開發與分析能力,簡單的SQL查詢操作界面、輕松上手數據分析,還可以生成分析結果并分享給同事。

  1. 登錄并進入DataWorks控制臺,在左上角選擇地域,本教程使用的地域為華東2(上海)

  2. 單擊左側導航欄的大數據體驗 > 公共數據集,單擊阿里電商數據集,進入阿里電商數據集詳情頁。

    image.png

  3. 單擊右上角的開始分析,選擇您需要體驗的引擎類型。本教程使用的是MaxCompute

    image.png

  4. 在新打開的DataWorks SQL查詢頁面中,會創建一個新的SQL查詢頁面,并顯示公共數據集的默認顯示SQL。單擊SQL查詢文件右上角的image.png,在彈框中設置工作空間及引擎信息。

  5. 完成設置后,您即可在SQL文件中進行數據查詢命令開發,完成后可單擊SQL查詢文件操作欄中的運行按鈕,運行成功后,在SQL文件下方會顯示查詢結果。

    本教程為您提供了一些查詢示例SQL命令,您可參見下文的附錄:數據查詢SQL示例,進行數據查詢分析。

    image.png

增強分析-創建卡片

  1. 單擊查詢結果區域左側欄的image.png,DataWorks會默認為您生成一個可視化的圖表,將表格展現的SQL查詢結果數據通過可視化的方式展現出來。

    說明

    首次操作時你需要先單擊我要體驗,并根據界面提示開啟增強分析對應的功能。

    image.png

  2. 如系統默認生成的可視化圖表,不符合您對于數據可視化的預期,您可單擊圖表右上方的image.png,進入圖表編輯頁面。本教程以修改圖表橫縱坐標標題為例,為您示例編輯圖表展示的操作。

    image.png

  3. 單擊圖表右上方的image.png,即可將該結果持久化保存下來并分享。

    保存卡片后,您可以單擊數據分析頁面最左側導航欄中的image.png,查看當前已保存的所有卡片。

    image.png

增強分析-創建報告

數據分析結果保存在DataWorks-卡片中后,您可以通過增強分析-報告的功能,將卡片組織為有圖表、有描述、有邏輯的分析報告,便于一鍵將分析報告分享給伙伴、同事。

  1. 單擊數據分析頁面左側導航欄中的image.png,進入報告頁面。

  2. 單擊右上角的創建報告,根據界面提示選擇需要生成報告的數據分析結果卡片。

  3. 配置數據分析報告頁面內容與主題風格,完成后單擊右上角的創建,完成報告創建。

    image.png

  4. 返回報告列表頁面后,您可以將鼠標懸浮到需要分享給其他人的報告上,單擊右上角的分享按鈕,根據界面提示即可獲得分享鏈接。后續可將分享鏈接發送給分享對象。

    您可單擊此處查看分析報告分享鏈接示例

附錄:數據查詢SQL示例

  • 用戶購物行為時間趨勢

    SET odps.namespace.schema = TRUE;
    SELECT  CAST(SUBSTR(behavior_time,12) AS BIGINT) AS 時間段
            ,CASE   WHEN behavior_type = '1' THEN '商品頁瀏覽'
                    WHEN behavior_type = '3' THEN '加入購物車'
                    WHEN behavior_type = '4' THEN '購買成功'
                    ELSE behavior_type
            END AS 用戶操作
            ,COUNT(DISTINCT user_id) AS 用戶數
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE   behavior_type IN ('1','3','4')
    GROUP BY 時間段
             ,用戶操作
    order by 時間段 asc;
  • 不同時間段的頁面訪問次數

    SET odps.namespace.schema = true;
    set odps.task.sql.sqa.enable=false;
    SELECT  CASE    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '00點-03點'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '04點-07點'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '08點-11點'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12點-15點'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16點-19點'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20點-23點'
            END AS 時間段
            ,COUNT(1) AS 頁面訪問次數
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE   behavior_type = '1'
    GROUP BY 時間段
    ORDER BY 時間段 ASC
    LIMIT   100;
  • TOP10熱銷商品品類

    SET odps.namespace.schema = true;
    SELECT  item_category as 商品品類ID,COUNT(DISTINCT item_id) AS 商品數量
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE  behavior_type = '4'
    group by item_category
    order by 商品數量 desc
    limit 10;

清理

完成教程后,請及時清理測試數據和試用資源。

  • MaxCompute資源清理。

    本教程使用了MaxCompute計算引擎,在體驗完成本教程后,如果后續您不再使用的話,請及時將MaxCompute資源釋放,否則MaxCompute會繼續計費。釋放操作請參見資源釋放

  • DataWorks資源清理。

    本教程使用了免費的基礎版DataWorks的SQL分析模塊,基礎版DataWorks的SQL分析任務運行結束后不會收取其他費用,如果您使用了DataWorks的其他功能模塊,使用了DataWorks的資源組運行了其他周期任務,請及時將DataWorks周期任務暫停,避免造成資源組的浪費。

    您可以進入運維中心的周期任務運維頁面暫停周期任務,操作詳情請參見查看并管理周期任務