基于阿里巴巴OneData方法論最佳實踐,在阿里巴巴的數據體系中,建議將數據倉庫分為三層:數據引入層(ODS,Operational Data Store)、數據公共層(CDM,Common Dimensions Model)和數據應用層(ADS,Application Data Store)。
數據倉庫自頂向下的分層和各層用途如下圖所示。
- 數據引入層(ODS,Operational Data Store,又稱數據基礎層):將原始數據幾乎無處理地存放在數據倉庫系統中,結構上與源系統基本保持一致,是數據倉庫的數據準備區。這一層的主要職責是將基礎數據同步、存儲到MaxCompute。
- 數據公共層(CDM,Common Dimensions Model):存放明細事實數據、維表數據及公共指標匯總數據。其中,明細事實數據、維表數據一般根據ODS層數據加工生成。公共指標匯總數據一般根據維表數據和明細事實數據加工生成。 CDM層又細分為維度層(DIM)、明細數據層(DWD)和匯總數據層(DWS),采用維度模型方法作為理論基礎, 可以定義維度模型主鍵與事實模型中外鍵關系,減少數據冗余,也提高明細數據表的易用性。在匯總數據層同樣可以關聯復用統計粒度中的維度,采取更多的寬表化手段構建公共指標數據層,提升公共指標的復用性,減少重復加工。
- 維度層(DIM,Dimension):以維度作為建模驅動,基于每個維度的業務含義,通過添加維度屬性、關聯維度等定義計算邏輯,完成屬性定義的過程并建立一致的數據分析維表。為了避免在維度模型中冗余關聯維度的屬性,基于雪花模型構建維度表。
在Dataphin中,維度層的表通常也被稱為維度邏輯表。
- 明細數據層(DWD,Data Warehouse Detail):以業務過程作為建模驅動,基于每個具體的業務過程特點,構建最細粒度的明細事實表。可以結合企業的數據使用特點,將明細事實表的某些重要屬性字段做適當冗余,也即寬表化處理。
在Dataphin中,明細數據層的表通常也被稱為事實邏輯表。
- 匯總數據層(DWS,Data Warehouse Summary):以分析的主題對象作為建模驅動,基于上層的應用和產品的指標需求,構建公共粒度的匯總指標表。以寬表化手段物理化模型,構建命名規范、口徑一致的統計指標,為上層提供公共指標,建立匯總寬表、明細事實表。
在Dataphin中,匯總數據層的表通常也被稱為匯總邏輯表,用于存放派生指標數據。
- 維度層(DIM,Dimension):以維度作為建模驅動,基于每個維度的業務含義,通過添加維度屬性、關聯維度等定義計算邏輯,完成屬性定義的過程并建立一致的數據分析維表。為了避免在維度模型中冗余關聯維度的屬性,基于雪花模型構建維度表。
- 數據應用層(ADS,Application Data Store):存放數據產品個性化的統計指標數據,根據CDM層與ODS層加工生成。
文檔內容是否對您有幫助?