隨著業務的快速發展,企業數據呈幾何倍增長,數據量龐大、復雜、各類數據間標準不一致,往往會出現數據難以管理的現象。DataWorks智能數據建模服務,將無序、雜亂、繁瑣、龐大且難以管理的數據,進行結構化有序的管理。使企業中的數據產生更多的價值,將數據價值最大化。
前提條件
您需要開通DataWorks智能數據建模后,才可以使用該產品功能,詳情請參見智能數據建模計費標準。
使用限制
概述
DataWorks數據建模支持數倉規劃設計、制定并沉淀企業數據標準、維度建模、數據指標定義,通過使用DataWorks數據建模,您可以將建模設計產出的維度表、明細表和匯總表物化到計算引擎中并進一步應用。
數倉規劃
使用DataWorks進行數據建模時,您可以在數倉規劃頁面進行數據分層、業務分類、主題域和業務過程設計。
數據分層
您可以結合業務場景、數據場景綜合考慮設計數倉的數據分層,DataWorks為您默認創建業界通用的五層數倉分層:
數據引入層 ODS(Operational Data Store)
明細數據層 DWD(Data Warehouse Detail)
匯總數據層 DWS(Data Warehouse Summary)
應用數據層 ADS(Application Data Service)
公共維度層 DIM(Dimension)
您也可以根據業務需求創建其他分層數據層,創建數據分層的操作請參見創建數倉分層。
業務分類
當企業業務比較復雜,不同類型業務彼此間需要共享數據域,但是又希望能在模型設計和應用過程中快速定位本業務的數據時,您可結合真實業務情況,規劃不同的業務分類,在后續建模的維度表和明細表中,將其關聯到對應的業務分類中。創建業務分類的操作可參見業務分類。
數據域
數據域是一個較高層次的數據歸類標準,是對企業業務過程進行抽象、提煉、組合的集合,是企業業務人員在使用數據時第一個分組入口,可以幫助企業業務人員快速的從海量的數據中快速圈定到自己的業務數據。
數據域面向業務分析,一個數據域對應一個宏觀分析領域,比如采購域、供應鏈域、HR域、電商業務域等。數據域的設定建議由統一組織或者人員(如數據架構師或者模型小組成員)進行管理和設定,數據域設計人員需要能對企業有深刻的業務理解,更多的表達對業務的解釋和抽象。使用DataWorks進行數據域的規劃建設的操作,請參見數據域。
業務過程
業務過程是對業務活動流程的描述,例如在電商領域,加購、下單、支付等都可以是一個業務過程。進行業務效果分析時,業務過程有非常典型的應用,例如常用漏斗分析,即將購買商品的業務活動分解為瀏覽商品、加入購物車、下訂單、付款、確認收貨等業務過程,統計每個業務過程的“訂單數”,將可以針對“訂單數”這一指標做漏斗分析。使用DataWorks創建業務過程的操作請參見業務過程。
數據標準
DataWorks數據建模支持在建模前規劃制定數據標準,或在建模使用過程中根據業務情況沉淀企業業務的數據標準。通過規范約束標準代碼、度量單位、字段標準、命名詞典,來保障后續建模與應用過程中數據處理的一致性。
例如,現有注冊表和登錄表兩張表,注冊表中存儲了會員ID,字段名為user_id,登錄表中也存儲了會員ID,字段名為userid,此時針對會員ID這個數據創建統一的字段標準,例如指定數據處理的標準代碼、指定字段的屬性要求(例如字段的數據類型、長度、默認值等)、指定數據的度量單位。創建好字段標準后,后續在建模過程中涉及到會員ID這個字段的設置時,即可直接關聯此標準,以此來保障所有會員ID字段的標準統一。
DataWorks中字段標準的創建操作請參見字段標準。
維度建模
DataWorks的數據建模理念遵循維度建模思想,使用DataWorks的維度建模功能進行數據倉庫建模設計時:
維度表
結合業務的數據域的規劃,提取出各業務數據域中進行數據分析時可能存在的維度,并將維度及其屬性通過維度表的方式存儲下來。例如,在進行電商業務數據分析時,可用的維度及其屬性有:訂單維度(屬性包括訂單ID、訂單創建時間、買家ID、賣家ID等)、用戶維度(性別、出生日期等)、商品維度(包括商品ID、商品名稱、商品上架時間)等,此時您就可以將這些維度和屬性創建為訂單維度表、用戶維度表、商品維度表等,將維度屬性記錄作為維度表的字段。后續您可將這些維度表部署到數倉中,通過ETL將實際維度數據按照維度表定義的方式進行存儲,方便業務人員在后續的數據分析時進行取用。
明細表
結合業務過程的規劃,梳理分析各業務過程中可能產生的實際數據,將這些實際數據字段通過明細表的方式存儲下來。例如下訂單這一業務過程中,您可以創建下訂單這一明細表,用于記錄下單過程可能產生實際數據字段,例如訂單ID、訂單創建時間、商品ID、數量、金額等。后續您可將這些明細表部署到數倉中,通過ETL將真實的數據按照明細表的定義方式進行匯總存儲,便于業務分析時取用。
匯總表
您可以結合業務數據分析和數倉分層,將一些明細的事實數據和維度數據先進行匯總分析,創建匯總表,后續數據分析時直接取用匯總表中的數據即可,無需再取用明細表和維度表中的數據。
逆向建模
逆向建模主要用于將其他建模工具生成的模型反向建模至DataWorks的維度建模中。例如,當您已通過其他建模工具生成模型,此時,想更換為DataWorks的智能建模進行后續建模工作,則可以使用逆向建模功能。該功能無需您再次執行建模操作,即可幫助您快速將已有模型反向建模至DataWorks的維度建模中,節省了大量的時間成本。
維度表、明細表、匯總表的創建操作請參見創建邏輯模型:維度表、創建邏輯模型:明細表、創建邏輯模型:匯總表。逆向建模操作,詳情請參見逆向建模:物理表反向建模。
數據指標
DataWorks的數據建模提供數據指標功能,為您提供統一的指標體系建立能力。
指標體系由原子指標、修飾詞、時間周期和派生指標構成。
原子指標:是基于某一業務過程下的度量,如“支付訂單”業務過程中的“支付金額”。
修飾詞:是對指標統計業務范圍的限定,如限定“支付金額”的統計范圍為“母嬰類產品”。
時間周期:用于明確指標統計的時間范圍或者時間點,如指定統計“支付金額”的時間周期為“最近7天”。
派生指標:由原子指標、修飾詞、時間周期組合定義。如,統計“最近7天”“母嬰類產品”的“支付金額”。
指標體系的創建操作請參見數據指標概述。
數據建模的必要性
海量數據的標準化管理
企業業務越龐大數據結構就越復雜,企業數據量會隨著企業業務的快速發展而迅速增長,如何結構化有序地管理和存儲數據是每個企業都將面臨的一個挑戰。
業務數據互聯互通,打破信息壁壘
公司內部各業務、各部門之間數據獨立自主形成了數據孤島,導致決策層無法清晰、快速地了解公司各類數據情況。如何打破部門或業務領域之間的信息孤島是企業數據管理的一大難題。
數據標準整合,統一靈活對接
同一數據不同描述,企業數據管理難、內容重復、結果不準確。如何制定統一的數據標準又不打破原有的系統架構,實現靈活對接上下游業務,是標準化管理的核心重點之一。
數據價值最大化,企業利潤最大化
在最大程度上用好企業各類數據,使企業數據價值最大化,為企業提供更高效的數據服務。