Dataphin支持創建離線計算模板。后續在開發任務時,可以引用創建的離線計算模板以提高任務的研發效率。本文為您介紹如何創建、配置并提交離線計算模板。
背景信息
當多個任務的代碼邏輯相似,只有部分配置項或輸入參數不同時,您可以將代碼寫入到離線計算模板中,并將不同的配置項和輸入參數定義為模板變量參數。后續任務引用了該離線計算模板后,可以給離線計算模板中的模板變量參數賦值,以實現代碼公共邏輯的單點維護和快速復用,提升了任務代碼研發的效率。
通常每個任務有獨立的運行資源,大批量任務同時運行時會導致運行資源占用率高,影響任務運行的并發性。Dataphin支持引用了同一個離線計算模板的多個任務可以共享運行資源,以保障其他任務正常運行。您需要為離線計算模板開啟共享運行資源開關,后續引用了該模板的多個任務可以共享運行在同一個資源上,其他任務就可以使用Dataphin剩余的資源。
前提條件
如果后續需要為離線計算模板開啟共享運行資源,則在開始執行操作前請您確認已開啟全局共享資源開關。如何開啟全局共享資源開關,請參見運行設置。
使用限制
僅支持超級管理員、項目管理員、項目開發者的用戶創建、配置并提交離線計算模板。
如何獲取項目管理員和開發者角色,請參見添加項目成員。
僅支持超級管理員和系統管理員開啟離線計算模板的共享運行資源開關。
操作步驟
在Dataphin首頁,在頂部菜單欄選擇研發 > 數據研發。
在開發頁面的頂部菜單欄選擇項目(Dev-Prod 模式需要選擇環境)。
在左側導航欄中選擇數據處理 > 計算模板,在計算模板列表中單擊圖標,選擇離線計算模板。
在新建離線計算模板對話框中,配置以下參數。
參數
描述
模板名稱
命名規則如下:
支持英文字母等大小寫、數字、下劃線(_)和短劃線(-)。
全局唯一。
不能超過64個字符。
節點類型
支持Shell和Python,且根據不同離線計算引擎,支持創建不同離線計算模板。
說明當節點類型選擇為SHELL或PYTHON時,可選擇配置Python三方包。
在Python三方包中添加某個第三方Module后,需要在任務中聲明引用后,才可以在代碼中導入(import)該Module??稍谟嬎闳蝿諏傩?> Python三方包配置項中設置編輯引用的Module。
MaxCompute計算引擎
MAX_COMPUTE_SQL
SPARK_JAR_ON_MAX_COMPUTE
MAX_COMPUTE_MR
Hadoop(Hive)計算引擎
HIVE_SQL
IMPALA_SQL
說明需已配置并開啟Impala。
SPARK_JAR_ON_HIVE
HADOOP_MR
TDH Inceptor計算引擎
INCEPTOR_SQL
SPARK_JAR_ON_HIVE
HADOOP_MR
ADB for PostgreSQL計算引擎
ADB_PG_SQL
StarRocks計算引擎
STARROCKS_SQL
ArgoDB計算引擎
ARGODB_SQL
選擇目錄
默認選擇為離線計算模板。同時您也可以在計算模板頁面創建目標文件夾后,選擇該目標文件夾為計算模板的目錄。新建文件夾的操作如下:
在計算模板列表上方單擊圖標,打開新建文件夾對話框。
在新建文件夾對話框中輸入文件夾名稱、選擇離線類型再根據需要選擇目錄位置。
單擊確定。
描述
填寫對離線計算模板簡單的描述,1000個字符以內。
單擊確定。
在離線計算模板的代碼開發頁面,開發離線計算的模板代碼。
支持定義模板變量參數,格式為
@@{模板變量參數名稱}
,模板變量參數名稱只能包含字母、數字和下劃線(_)且只能以字母開頭。例如@@{variable}
。完成離線計算模板的代碼開發后,單擊頁面左上方的按鈕,并在參數填寫對話框中填寫參數值。
單擊確定。
在離線計算模板的代碼開發頁面,單擊右側屬性。
在屬性面板中,配置參數。
參數
描述
基本信息
描述
填寫離線計算模板的簡單描述。
Python三方包
選擇需要引入的Python三方包。更多信息,請參見安裝及管理Python三方包。
說明在Python三方包中添加某個第三方Module后,需要在任務中聲明引用后,才可以在代碼中導入(import)該Module。
運行配置
共享運行資源
開啟共享運行資源后,引用該模板的任務實例可以共享運行資源,以節約運行資源。該操作僅限超級管理員執行。
重要模板的共享運行資源配置,須在運維(元倉)租戶中開啟全局共享資源,否則不支持配置。且引用該模板創建的計算任務為獨享資源任務。具體操作,請參見運行設置。
參數配置
參數說明
填寫代碼中的參數說明,便于開發者理解。
默認值
為代碼中的參數賦值。后續您可以在引用了該模板的任務中修改該參數值,運行任務后即可生效。
參數加密
開啟參數加密后,參數默認值將以密文形式存儲,以保護敏感數據。后續在引用該模板的任務中也是無法查看明文的參數默認值,任務運行時Dataphin會自動解密參數默認值。
關閉參數加密后,已配置的參數默認值將自動清空。
資源配置
調度資源組
任務調度運行時需要消耗調度資源。您可指定引用模板的每個任務生成的實例可使用的調度資源組,實例調度時會從占用指定資源組的資源配額,如果指定的資源組可用資源不足,則會進入等待調度資源狀態。不同資源組之間的資源相互隔離互不影響,以保證調度穩定性。
開啟共享運行資源后,不支持指定自定義資源組。引用模板所創建的任務為共享資源任務。共享資源任務默認配置共享調度資源池以支持所有共享資源任務的調度下發,如需修改共享資源池可支持的任務并發上限,請聯系元倉系統管理員進行修改。
關閉共享運行資源后,支持指定自定義資源組。設置的調度資源組僅支持選擇使用場景為任務日常調度且與當前任務所屬項目有關聯關系的資源組。具體操作,請參見資源組配置。
重要引用模板創建的任務僅支持在模板上配置調度資源組。
如果選擇了項目默認資源組,將根據項目默認資源組的配置修改自動更新。
單擊確定,完成離線計算模板的配置。
在離線計算模板的代碼開發頁面,單擊頁面上方的按鈕,并在提交備注對話框中填寫備注信息。
單擊確定并提交。
后續步驟
基于已創建的離線計算模板創建對應的任務。具體操作,請參見: