層級維度邏輯表是具有層級結構關系的維度表。例如時間層級維度邏輯表,包含日、周、月、季、年等日期數據。本文為您介紹如何新建并配置層級維度邏輯表。
層級維度表介紹
層級維度表對應層級對象。具備以下特征:
數據量小。
數據(行)在業務上有上下級關系。例如,地域(行政區劃)、企業組織架構、產品類目。國家、省份、城市,城市是一條條獨立的記錄,而國家->省份->城市之間有上下級的從屬關系;企業組織架構中的事業群->事業部->一級部門->二級部門,產品類目中食品->休閑零食->干果等類目關系。
案例說明
數據模式
通常在業務系統中,具備上下級從屬關系的數據,一般使用以下數據模式。
字段名稱 | 字段說明 |
id | 當前層級ID。 |
name | 當前層級名稱。 |
parent_id | 父層級ID。 |
level | 層級。 |
數據舉例
業務系統中的region
區域數據表。
id | name | parent_id | level |
1 | 中國 | Null | 0 |
21 | 華東大區 | 1 | 1 |
212 | 浙江省 | 21 | 2 |
2121 | 杭州市 | 212 | 3 |
21213 | 余杭區 | 2121 | 4 |
通過Dataphin的region
業務對象創建的層級維度表。
邏輯表名稱 | 業務對象 | 來源表 | 子層字段 | 父層字段 | 名稱字段 | 層數 |
dim_region | region | ${xxx}.region | id | parent_id | name | 5 |
前提條件
已完成層級業務對象的創建。更多信息,請參見創建并管理業務實體。
操作步驟
在Dataphin首頁,單擊頂部菜單欄研發->數據研發。
按照以下操作指引,進入新建維度邏輯表對話框。
選擇項目(Dev-Prod模式需要選擇環境)->單擊維度邏輯表->單擊新建圖標。
在新建維度邏輯表對話框中,配置參數。
參數
描述
業務對象
選擇層級對象。例如,
region
業務對象。表類型
業務對象選擇層級對象,表類型為層級維度邏輯表,不支持修改。
數據板塊
默認為項目關聯的數據板塊,不支持修改。
主題域
默認為業務對象所在的主題域,不支持修改。
數據時效
數據時效用于定義后續該層級維度邏輯表任務在生產環境的調度類型。層級維度邏輯表的數據時效默認為T+1(天任務)。
邏輯表名
Dataphin自動填充邏輯表名。默認命名規則為
<數據板塊名稱>.dim_<業務對象名稱>
。中文名稱
填寫維度邏輯表的中文名稱。例如,區域維度邏輯表。
命名規則如下:
不能超過128個字符。
支持任何字符。
描述信息
填寫對層級維度邏輯表的簡單描述,1000個字符以內。
單擊確定。
在計算邏輯頁面,配置維度邏輯表的來源數據與主鍵之間的映射關系。
參數
描述
字段名稱
默認為業務過程的名稱,您也可以修改字段名稱。例如,
region
。命名規則如下:
不能超過128個字符。
支持任何字符。
數據類型
選擇層級邏輯表主鍵的數據類型。例如,
bigint
。說明
填寫層級邏輯表主鍵的字段說明。例如,
區域_主鍵
ID。來源表
選擇層級維度的數據來源。例如,
region
區域數據表。層級數
配置層級維度的層級數。例如,
5
層。是否生成葉子維度表
選擇是否生成葉子維度表。葉子維度表是指該層次結構中的最底層或最細節的層次。例如,產品類目維度表的葉子維度表通常會包含具體的產品信息,例如產品ID、產品名稱、價格、庫存、銷售數量等。
子層字段、父層字段
選擇來源表中表示子層和父層的數據字段。例如,
region
區域數據表中id
(子層字段)和parent_id
(父層字段)。字段名稱
選擇來源表中表示層級維度表字段名稱的數據字段。例如,
region
區域數據表中的name
字段。根節點定義
定義層級結構的最頂部節點對應的記錄。可以基于來源主表字段定義根層級識別的SQL判斷條件。例如,
region
區域數據表中的中國即為根節點,判斷條件可以為level = 0
或parent_id is null
。數據過濾條件
非必填,您可以對來源表字段定義數據過濾條件。例如,過濾掉臟數據或已邏輯刪除的字段。
說明僅可基于來源主表字段,設定數據更新及獲取時間周期的判斷條件,即時間分區。
單擊保存并下一步。
在調度&參數配置頁面,配置維度邏輯表的調度屬性、調度依賴、調度參數、運行配置。各配置說明如下:
調度屬性:用于定義維度邏輯表在生產環境的調度方式。您可以通過調度屬性,配置維度邏輯表的調度類型、調度周期、調度邏輯與執行等。配置說明,請參見配置邏輯表調度屬性。
調度依賴:用于定義邏輯表在調度任務中的節點。Dataphin通過各個節點的調度依賴的配置結果,有序地運行業務流程中各個節點,保障業務數據有效、適時地產出。配置說明,請參見配置邏輯表上游依賴。
運行參數:參數配置是對代碼中所用的變量進行賦值,從而支持節點調度時,參數變量可以自動被替換為相應的變量值。在調度參數配置頁面,您可以對參數配置進行忽略或轉為全局變量的操作。配置說明,請參見邏輯表運行參數配置。
運行配置:您可以根據業務場景為該維度邏輯表配置任務級的運行超時時間和任務運行失敗時的重跑策略,杜絕因計算任務長時間資源占用造成資源浪費的同時提高計算任務運行的可靠性。配置說明,請參見計算任務運行配置。
資源配置:您可以為當前邏輯表任務配置調度資源組,邏輯表任務調度時將占用該資源組的資源配額。配置說明,請參見邏輯表資源配置。
完成層級維度邏輯表配置后,單擊保存并提交。
提交時,Dataphin將進行任務的血緣解析及提交檢查。更多信息,請參見規范建模任務提交說明。
后續步驟
如果項目的模式為Dev-Prod,則您需要發布邏輯表至生產環境。具體操作,請參見管理發布任務。
邏輯表發布至生產環境后,您可在運維中心查看并運維邏輯表任務。具體操作,請參見運維中心概述。