本文為您介紹構(gòu)建MaxCompute數(shù)據(jù)倉庫的流程。

構(gòu)建MaxCompute數(shù)據(jù)倉庫的整體流程如下。數(shù)倉構(gòu)建流程圖

基本概念

在正式學(xué)習(xí)本教程之前,您需要首先理解以下基本概念:
  • 業(yè)務(wù)板塊:比數(shù)據(jù)域更高維度的業(yè)務(wù)劃分方法,適用于龐大的業(yè)務(wù)系統(tǒng)。
  • 維度:維度建模由Ralph Kimball提出。維度模型主張從分析決策的需求出發(fā)構(gòu)建模型,為分析需求服務(wù)。維度是度量的環(huán)境,是我們觀察業(yè)務(wù)的角度,用來反映業(yè)務(wù)的一類屬性。屬性的集合構(gòu)成維度,維度也可以稱為實體對象。例如,在分析交易過程時,可以通過買家、賣家、商品和時間等維度描述交易發(fā)生的環(huán)境。
  • 屬性(維度屬性):維度所包含的表示維度的列稱為維度屬性。維度屬性是查詢約束條件、分組和報表標(biāo)簽生成的基本來源,是數(shù)據(jù)易用性的關(guān)鍵。
  • 度量:在維度建模中,將度量稱為事實,將環(huán)境描述為維度,維度是用于分析事實所需要的多樣環(huán)境。度量通常為數(shù)值型數(shù)據(jù),作為事實邏輯表的事實。
  • 指標(biāo):指標(biāo)分為原子指標(biāo)和派生指標(biāo)。原子指標(biāo)是基于某一業(yè)務(wù)事件行為下的度量,是業(yè)務(wù)定義中不可再拆分的指標(biāo),是具有明確業(yè)務(wù)含義的名詞,體現(xiàn)明確的業(yè)務(wù)統(tǒng)計口徑和計算邏輯,例如支付金額。
    • 原子指標(biāo)=業(yè)務(wù)過程+度量。
    • 派生指標(biāo)=時間周期+修飾詞+原子指標(biāo),派生指標(biāo)可以理解為對原子指標(biāo)業(yè)務(wù)統(tǒng)計范圍的圈定。
  • 業(yè)務(wù)限定:統(tǒng)計的業(yè)務(wù)范圍,篩選出符合業(yè)務(wù)規(guī)則的記錄(類似于SQL中where后的條件,不包括時間區(qū)間)。
  • 統(tǒng)計周期:統(tǒng)計的時間范圍,例如最近一天,最近30天等(類似于SQL中where后的時間條件)。
  • 統(tǒng)計粒度:統(tǒng)計分析的對象或視角,定義數(shù)據(jù)需要匯總的程度,可理解為聚合運算時的分組條件(類似于SQL中的group by的對象)。粒度是維度的一個組合,指明您的統(tǒng)計范圍。例如,某個指標(biāo)是某個賣家在某個省份的成交額,則粒度就是賣家、地區(qū)這兩個維度的組合。如果您需要統(tǒng)計全表的數(shù)據(jù),則粒度為全表。在指定粒度時,您需要充分考慮到業(yè)務(wù)和維度的關(guān)系。統(tǒng)計粒度常作為派生指標(biāo)的修飾詞而存在。
基本概念之間的關(guān)系和舉例如下圖所示。