物化配置用于配置維度和事實邏輯表的生命周期、分區字段及自定義參數,同時支持手動設定物化表的個數及字段在物化表中的分布,有效的提升了自動化生成模型的數據查詢效率和資源使用效率。本文為您介紹如何配置維度和事實邏輯表的物化參數。
前提條件
已新建維度邏輯表或有主鍵的事實邏輯表。
操作步驟
請參見數據開發入口,進入數據開發頁面。
在數據開發頁面,按照下圖操作指引,進入物化配置面板。
如果您當前訪問的是Dev或Basic(非Data_distill)項目,且項目空間為您的數據開發空間,則不需要選擇項目空間。
在物化配置面板,配置參數。
區域
描述
分區與生命周期
派生指標分區:僅周期快照事實表、累積快照事實表和普通維度邏輯表支持。
最大分區(MAX_PT):最大分區保留了最新的全量快照數據,選擇最大分區中的數據用于派生指標的計算,可縮短生命周期,節約存儲資源。
業務日期(Bizdate):使用業務日期分區計算派生指標,可保障數據的強一致性,但需保留歷史分區用于派生指標計算。
生命周期:設置存儲的生命周期,生命周期最大值為36500, 大于等于該值將自動轉為永久存儲(顯示為36500天)。
系統支持快速選擇存儲的生命周期,包括7、14、30和365天。
分布鍵
計算引擎為StarRocks時,需配置分布鍵。分布鍵建議選擇高基數且經常作為查詢條件的字段,且不建議超過3個字段;分布鍵的順序影響存儲及查詢效率。
說明若邏輯表包含主鍵時,將默認設置主鍵為分布鍵(Duplicate Key)。
自定義物化
開啟后可以自定義物化配置,手動設定物化表的個數及字段在物化表中的分布。
說明如果開啟自定義物化,每次新增字段都需要人工指定物化表。
開啟自定義物化配置后,請按照如下步驟配置物化策略。
(可選)在物化配置彈框中選擇物化的初始化策略,快捷完成初始化。
快捷初始化包含以下三種策略,當然您也可以手動調整配置。
單個物化表:將所有字段放入單個物化表。
平衡行策略:產出時間與查詢效率平衡,即根據產出的時間間隔拆分物化表。
生產線上策略:生產線的策略,即按照系統的始化策略。
重要切換初始化策略下方物化配置將被重置,請謹慎操作。
單擊圖標,將待分配的字段添加到展開的物化表后,單擊確定。
通過篩選,快速選擇目標物化表。
如果需要添加到新的物化表,請單擊新增物化表。
配置后:
可以通過物化結果查看已分配的字段、物化表數以及剩余待分配的字段。
可以單擊查看物化配置,查看配置詳情。
可以單擊生產環境物化對比,對比生產線上策略與當前編輯中策略。
物化成本:即物化成本對比。對比物化表個數、冗余存儲字段個數以及下游查詢關聯次數,并標記當前策略相對生產線上策略的絕對變化值。
說明冗余存儲字段表示在兩個或兩個以上物化表冗余存放的字段個數;下游查詢關聯次數是根據邏輯表的直接(一級)下游引用情況,計算出的關聯次數。
字段產出時間:即字段產出時間對比。標記每個字段當前策略相對生產線上策略的絕對變化值。
說明生產線上字段產出時間為最近7天平均產出時間,而當前策略產出時間為計算所得值。
高級物化配置
設置自定義參數。要求需要與當前Dataphin系統綁定的計算引擎源的特性一致。詳情請參見配置自定義任務參數。
單擊確定。