本文為您介紹CDM明細層的表、數據存儲與生命周期管理和各種事實表的設計規范。
表命名規范
命名規則:{project_name}.dwd{業務縮寫/pub}{數據域縮寫}{業務過程縮寫}[{自定義表命名標簽縮寫}]{刷新周期標識}{單分區增量全量標識}。
命名說明:
- pub表示數據包括多個業務的數據。
- 單分區增量全量標識:i表示增量,f表示全量。
數據存儲及生命周期管理規范
CDM明細層的表的類型為事實表,存儲方式為按天分區。
事務型事實表一般永久保存。周期快照型事實表根據業務需求設置生命周期管理。您可依據3個月內的最大需要訪問的跨度設置保留策略,具體計算方式如下:
- 當3個月內的最大訪問跨度小于或等于4天時,建議將保留天數設為7天。
- 當3個月內的最大訪問跨度小于或等于12天時,建議將保留天數設為15天。
- 當3個月內的最大訪問跨度小于或等于30天時, 建議將保留天數設為33天。
- 當3個月內的最大訪問跨度小于或等于90天時,建議將保留天數設為93天。
- 當3個月內的最大訪問跨度小于或等于180天時, 建議將保留天數設為183天。
- 當3個月內的最大訪問跨度小于或等于365天時,建議將保留天數設為368天。
事務型事實表設計準則
事務型事實表主要用于分析行為與追蹤事件。事務事實表獲取業務過程中的事件或者行為細節,然后通過事實與維度之間關聯,可以非常方便地統計各種事件相關的度量,例如瀏覽UV,搜索次數等等。
- 基于數據應用需求的分析設計事務型事實表,如果下游存在較大的針對某個業務過程事件的分析指標需求,可以考慮基于某一個事件過程構建事務型事實表。
- 事務型事實表一般選用事件發生日期或時間作為分區字段,這種分區方式可以方便下游的作業數據掃描執行分區裁剪。
- 明細層事實表的冗余子集的原則能有利于降低上層數據訪問的IO開銷。
- 明細層事實表維度退化到事實表原則能有利于減少上層數據訪問的JOIN成本。
周期快照型事實表
周期快照型事實表主要用于分析狀態型或者存量型事實。快照是指以預定的時間間隔來采樣狀態度量。
累計快照事實表
累計快照事實表是基于多個業務過程聯合分析從而構建的事實表,如采購單的流轉環節等。
累計快照事實表主要用于分析事件之間的時間間隔與周期。例如,用交易的支付與發貨之間的間隔,來分析發貨速度,或在支付和退款環節分析支付退款率等等。
累計快照事實表同時也可以用于幫助分析一些少量的、且對刷新時間不是非常敏感的指標統計。例如,在當前事務型事實表不支持,且只有少量的統計指標時,需要分析交易的關閉和發貨,就可以基于累計快照事實表進行計算。