本文為您介紹CDM匯總層設計規范。
命名規范
命名規則:{project_name}.dws{業務縮寫/pub}{數據域縮寫}{數據粒度縮寫}[{自定義表命名標簽縮寫}]{統計時間周期范圍縮寫}{刷新周期標識}{單分區增量全量標識}。
命名說明:
- 在默認情況下,離線計算應該包括最近一天(1d)、最近N天(nd)和歷史截至當天(td)三個表。
如果nd表的字段過多,需要拆分時,只允許以一個統計周期單元作為原子拆分,即一個統計周期拆分一個表。例如,最近7天(1w)拆分一個表,不允許拆分出來的一個表存儲多個統計周期。
- 對于{刷新周期標識}和{單分區增量全量標識}在匯總層不做強制要求。單分區增量全量標識:i表示增量,f表示全量。
- 對于小時表不管是按天刷新還是按小時刷新,都用_hh來表示。
- 對于分鐘表不管是按天刷新還是按小時刷新,都用_mm來表示。
數據存儲及生命周期管理規范
CDM匯總層的表的類型為事實表,存儲方式為按天分區。
事務型事實表一般會永久保存。周期快照型事實表根據業務需求設置生命周期管理。您可依據3個月內的最大需要訪問的跨度設置保留策略,具體計算方式如下:
- 當3個月內的最大訪問跨度小于或等于4天時,建議將保留天數設為7天。
- 當3個月內的最大訪問跨度小于或等于12天時,建議將保留天數設為15天。
- 當3個月內的最大訪問跨度小于或等于30天時,建議將保留天數設為33天。
- 當3個月內的最大訪問跨度小于或等于90天時,建議將保留天數設為93天。
- 當3個月內的最大訪問跨度小于或等于180天時,建議將保留天數設為183天。
- 當3個月內的最大訪問跨度小于或等于365天時,建議將保留天數設為368天。