Dataphin標簽基于離線計算引擎,支持通過表映射方式將物理表字段直接定義成為數據集指標。本文將指導您如何通過表映射創建離線數據集。
前提條件
創建離線數據集前需先創建數據集所歸屬的標簽項目。更多信息,請參見創建標簽項目。
操作步驟
在Dataphin首頁,單擊頂部菜單欄的標簽 > 工作臺。
在頂部菜單欄中,選擇項目。
在左側導航欄中選擇數據準備 > 離線數據集。
在離線數據集頁面,單擊新建數據集。在新建離線數據集對話框中,選擇表映射。
在新增表映射配置頁面,配置數據集的基本信息、加工邏輯和運維配置。
基本信息
參數
描述
數據集名稱
填寫數據集的名稱信息。支持中英文、數字和下劃線(_),64個字符以內。
數據集code
離線數據集的唯一標識。在存在相同離線數據集名稱時,可幫助您定位具體離線數據集。必須以字母開頭,允許小寫英文字母、數字和下劃線(_),64個字符以內。
數據集更新方式
支持周期更新與手動更新方式。
周期更新:在一定時間的間隔內自動更新數據集。
手動更新:通過手動操作方式更新數據集。
負責人
請選擇該離線數據集的負責人。
描述
填寫離線數據集的簡單描述,1000個字符以內。
加工邏輯
參數
描述
項目
選擇離線數據集所需要引用的項目名稱,支持跨通用項目選表。
來源表
選擇您需定義數據集的來源表名稱。
說明僅支持選擇項目生產賬號有查表數據的表。若無權限,您可以單擊申請權限進行申請。
非分區表僅支持管理中心 > 標簽平臺設置的一級分區字段名的分區表。更多信息,請參見標簽平臺設置。
日期分區
選擇來源表的分區字段。
若所選來源表為分區表,則系統將默認使用字段名稱作為日期分區。若默認字段名稱不在來源表的分區字段列表中,系統將使用該表的第一個分區字段作為日期分區。
若所選來源表為非分區表,則無需選擇日期分區。
分區字段格式
輸入日期格式,或選擇已有的日期格式。可選擇yyyymmdd、yyyy-mm-dd、yyyy/mm/dd、yyyy.mm.dd。
實體ID-值類型
選擇實體ID字段。將用于標簽加工時實體ID自動映射。
說明系統將根據實體ID字段的類型自動生成值類型。
指標配置
完成項目、來源表和實體ID-值類型選擇后,您可以在指標配置列表中勾選定義數據集的指標,并配置對應來源字段、碼表和描述。
說明指標名稱不能與一級分區字段名稱重復。
分區字段和特殊字段類型不支持選擇,請以實際系統界面是否可選為準。
已作為實體ID的字段不可再作為指標。
搜索指標:支持輸入指標名稱或指標描述搜索指標。
批量添加指標:單擊批量添加指標,在選擇來源字段對話框中,您可以批量勾選來源字段添加到指標配置列表中。
配置碼表:僅支持整型、Decimal(M,0)、布爾型及字符串類型字段配置碼表。
單擊進入配置碼表對話框。
在配置碼表對話框中,配置相關參數。
配置碼表:默認為不配置,可以選擇碼表為指標配置對應碼表。
碼表來源:目前僅支持手動配置。
碼表名稱:請輸入碼表名稱。支持中文、英文、數字及特殊字符,128個字符以內。
碼表描述:請輸入碼表的簡單描述,1000個字符以內。
批量輸入:單擊批量輸入,可以在批量輸入代碼信息對話框中,批量輸入代碼值及代碼名稱,每組按行分割,代碼值和代碼名稱中間用半角冒號(:)分隔。單擊點擊識別后,系統將自動解析批量輸入框的代碼信息并填入代碼信息列表。
一鍵清除:單擊一鍵清除,系統將自動清除信息列表。
代碼信息:支持手動輸入代碼值、代碼名稱。
代碼值:填寫指標對應的代碼值,填寫類型需要符合指標的值類型,不可為空,且填寫的代碼值需唯一。
代碼名稱:支持填寫所有字符類型,不可為空,且填寫的代碼值需唯一。
說明單擊支持刪除當前已創建的代碼值。
單擊確定,完成代碼值配置。
操作:單擊支持刪除當前已配置指標。
批量刪除:您可以對選中的指標進行批量刪除。
運維配置
說明若數據集更新方式為手動更新,無需進行配置。
調度周期
計劃更新時間:支持按天的某一時刻進行調度。即任務每天自動運行一次,您可以根據需要,指定運行的時間點。
條件調度:可設置多組調度條件,系統按照從上往下的順序評估條件,命中條件后即執行相應調度,并終止后續所有調度條件的評估。未命中任何條件時,則執行默認調度配置。更多信息,請參見條件調度規則說明。
重要條件調度僅在調度類型為正常調度時生效。
調度依賴
調度依賴即節點間的上下游依賴關系,在Dataphin中,上游任務節點運行完成且運行成功,下游任務節點才會開始運行。
自動解析
系統將根據任務血緣自動解析上游依賴節點并做關聯,數據更新將依賴上游數據產出。
說明若自動解析的結果不符合預期,您可以單擊關閉生效按鈕,關閉后表示不選擇依賴該節點。
默認本周期依賴。
添加依賴
若自動解析無法解析出調度依賴關系或自動解析生成的上游依賴配置與實際應用不符時,您可以手動單擊+添加依賴添加節點的上游依賴。
單擊保存并發布,完成離線數據集的創建。
說明保存成功后,您可以單擊預覽。系統將根據配置的加工邏輯展示對應數據信息,以幫助您驗證加工邏輯是否正確。
后續步驟
完成離線數據集的創建和配置后,您可以為離線數據集創建對應的離線標簽。更多信息,請參見離線標簽概述。