下圖為MaxCompute數據倉庫構建的整體流程。
基本概念
在正式學習本教程之前,您需要首先理解以下基本概念:
業務板塊:比數據域更高維度的業務劃分方法,適用于龐大的業務系統。
維度:維度建模由Ralph Kimball提出。維度模型主張從分析決策的需求出發構建模型,為分析需求服務。維度是度量的環境,是我們觀察業務的角度,用來反映業務的一類屬性 。屬性的集合構成維度 ,也可以稱為實體對象。例如, 在分析交易過程時,可以通過買家、賣家、商品和時間等維度描述交易發生的環境。
屬性(維度屬性):維度所包含的表示維度的列稱為維度屬性。維度屬性是查詢約束條件、分組和報表標簽生成的基本來源,是數據易用性的關鍵。
度量:在維度建模中,將度量稱為事實 ,將環境描述為維度,維度是用于分析事實所需要的多樣環境。度量通常為數值型數據,作為事實邏輯表的事實。
指標:指標分為原子指標和派生指標。原子指標是基于某一業務事件行為下的度量,是業務定義中不可再拆分的指標,是具有明確業務含義的名詞 ,體現明確的業務統計口徑和計算邏輯,例如支付金額。
原子指標=業務過程+度量。
派生指標=時間周期+修飾詞+原子指標,派生指標可以理解為對原子指標業務統計范圍的圈定。
業務限定:統計的業務范圍,篩選出符合業務規則的記錄(類似于SQL中where后的條件,不包括時間區間)。
統計周期:統計的時間范圍,例如最近一天,最近30天等(類似于SQL中where后的時間條件)。
統計粒度:統計分析的對象或視角,定義數據需要匯總的程度,可理解為聚合運算時的分組條件(類似于SQL中的group by的對象)。粒度是維度的一個組合,指明您的統計范圍。例如,某個指標是某個賣家在某個省份的成交額,則粒度就是賣家、地區這兩個維度的組合。如果您需要統計全表的數據,則粒度為全表。在指定粒度時,您需要充分考慮到業務和維度的關系。統計粒度常作為派生指標的修飾詞而存在。
基本概念之間的關系和舉例如下圖所示。