本實驗采用DataWorks+MaxCompute產品組合,為您介紹DataWorks的基本使用。
快速體驗
本案例中,數據同步和數據加工的部分任務可以通過ETL工作流模板一鍵導入。在導入模板后,您可以前往目標空間,并自行完成后續的數據質量監控和數據可視化操作。
僅空間管理員角色可導入ETL模板至目標工作空間,為賬號授權空間管理員角色詳情請參見空間級模塊權限管控。
導入ETL工作流模板,詳情請參見ETL工作流快速體驗。
ETL工作流模板快捷入口,請點擊網站用戶行為分析。
實驗介紹
實驗背景
以網站用戶畫像分析為背景,通過使用DataWorks完成以下場景。
數據同步
數據加工
配置數據質量監控
數據可視化展現
目標人群
開發工程師、數據分析師、產品運營等存在數倉數據獲取與數據分析洞察人員。
涉及產品
本案例涉及以下產品:
一站式大數據開發治理DataWorks
本案例通過DataWorks實現數據同步、加工、質量監控,以及數據可視化展現,您需提前開通該服務。詳情請參見開通DataWorks服務。
云原生大數據計算服務MaxCompute
實現底層加工計算,您需提前開通該服務。詳情請參見開通MaxCompute。
云數據庫RDS MySQL版
本案例中用于存儲用戶信息數據。案例已默認提供該MySQL數據源基本信息,您無需單獨開通該服務。
對象存儲OSS
本案例已默認提供該OSS數據源基本信息,您無需單獨開通該服務。
涉及模塊
本案例使用以下DataWorks模塊共同完成。
步驟 | 操作內容 | 階段性目標 |
通過DataWorks數據集成模塊,將存儲在MySQL中的用戶信息數據及存儲在OSS中的用戶訪問日志數據同步至MaxCompute,并提交調度系統,結合DataWorks調度參數實現周期性增量同步。 | 學習如下內容:
| |
使用DataWorks數據開發(DataStudio)模塊,將日志數據通過函數正則等方式拆解為可分析字段,并與用戶信息表加工匯總產出基本的用戶畫像數據,并提交調度系統,結合DataWorks調度參數實現周期性數據清洗操作。 | 學習如下內容:
| |
通過DataWorks數據質量模塊,對周期性ETL(Extract Transformation Load)操作過程中產生的臟數據進行監控,監控不通過則阻斷任務執行,避免影響擴大。 | 學習如何基于DataWorks為任務產出的表,配置數據質量的監控規則,以保證快速感知ETL過程中產生的臟數據,有效阻斷臟數據向下游蔓延。 | |
通過DataWorks數據分析模塊,對最終結果表進行用戶畫像分析。例如,訪問用戶中地域分布分析、城市注冊人數排行榜分析。 | 學習如何基于DataWorks將數據進行可視化展示。 |
實驗預期
實操該實驗后,可對DataWorks的主要功能有所了解。
實操該實驗后,可在DataWorks獨立完成數據同步 、數據開發和任務運維等數據崗位常見任務。
實驗時長
采用在線學習的方式,預計耗時1小時。
實驗費用
本案例運行可能會產生一定的費用。為避免產生過多費用,本案例在創建相關表時,生命周期已默認設置為14天,為避免長期調度產生費用,您可以在實操結束后配置任務的調度有效期,或者對任務執行凍結業務流程根節點(虛擬節點workshop_start)的操作。
學習答疑
如果您在學習過程中遇到問題,請申請加入釘釘群進行咨詢。