Dataphin支持創建離線計算模板。后續在開發任務時,可以引用創建的離線計算模板以提高任務的研發效率。本文為您介紹如何創建、配置并提交離線計算模板。
背景信息
當多個任務的代碼邏輯相似,只有部分配置項或輸入參數不同時,您可以將代碼寫入到離線計算模板中,并將不同的配置項和輸入參數定義為模板變量參數。后續任務引用了該離線計算模板后,可以給離線計算模板中的模板變量參數賦值,以實現代碼公共邏輯的單點維護和快速復用,提升了任務代碼研發的效率。
使用限制
僅支持超級管理員、項目管理員、項目開發者的用戶創建、配置并提交離線計算模板。
如何獲取項目管理員和開發者角色,請參見操作步驟。
操作步驟
在Dataphin首頁,在頂部菜單欄選擇研發 > 數據研發。
在開發頁面的頂部菜單欄選擇項目(Dev-Prod 模式需要選擇環境)。
在左側導航欄中選擇數據處理 > 計算模板,在計算模板列表中單擊圖標,選擇離線計算模板。
在新建離線計算模板對話框中,配置以下參數。
參數
描述
模板名稱
命名規則如下:
支持英文字母等大小寫、數字、下劃線(_)和短劃線(-)。
全局唯一。
不能超過64個字符。
節點類型
支持Shell和Python,且根據不同離線計算引擎,支持創建不同離線計算模板。
說明當節點類型選擇為SHELL或PYTHON時,可選擇配置Python三方包。
在Python三方包中添加某個第三方Module后,需要在任務中聲明引用后,才可以在代碼中導入(import)該Module。可在計算任務屬性 > Python三方包配置項中設置編輯引用的Module。
MaxCompute計算引擎
MAX_COMPUTE_SQL
SPARK_JAR_ON_MAX_COMPUTE
MAX_COMPUTE_MR
選擇目錄
默認選擇為離線計算模板。同時您也可以在計算模板頁面創建目標文件夾后,選擇該目標文件夾為計算模板的目錄。新建文件夾的操作如下:
在計算模板列表上方單擊圖標,打開新建文件夾對話框。
在新建文件夾對話框中輸入文件夾名稱、選擇離線類型再根據需要選擇目錄位置。
單擊確定。
描述
填寫對離線計算模板簡單的描述,1000個字符以內。
單擊確定。
在離線計算模板的代碼開發頁面,開發離線計算的模板代碼。
支持定義模板變量參數,格式為
@@{模板變量參數名稱}
,模板變量參數名稱只能包含字母、數字和下劃線(_)且只能以字母開頭。例如@@{variable}
。完成離線計算模板的代碼開發后,單擊頁面左上方的按鈕,并在參數填寫對話框中填寫參數值。
單擊確定。
在離線計算模板的代碼開發頁面,單擊右側屬性。
在屬性面板中,配置參數。
參數
描述
基本信息
描述
填寫離線計算模板的簡單描述。
Python三方包
選擇需要引入的Python三方包。更多信息,請參見安裝Python Module。
說明在Python三方包中添加某個第三方Module后,需要在任務中聲明引用后,才可以在代碼中導入(import)該Module。
參數配置
參數說明
填寫代碼中的參數說明,便于開發者理解。
默認值
為代碼中的參數賦值。后續您可以在引用了該模板的任務中修改該參數值,運行任務后即可生效。
參數加密
開啟參數加密后,參數默認值將以密文形式存儲,以保護敏感數據。后續在引用該模板的任務中也是無法查看明文的參數默認值,任務運行時Dataphin會自動解密參數默認值。
關閉參數加密后,已配置的參數默認值將自動清空。
單擊確定,完成離線計算模板的配置。
在離線計算模板的代碼開發頁面,單擊頁面上方的按鈕,并在提交備注對話框中填寫備注信息。
單擊確定并提交。
后續步驟
基于已創建的離線計算模板創建對應的任務。具體操作,請參見: