本文為您介紹如何基于Dataphin新建SPARK_JAR_ON_MAX_COMPUTE類型的任務。
背景信息
SPARK_JAR_ON_MAX_COMPUTE任務中引用到的JAR和PYTHON文件需要提前創建,因此您需要先在資源管理中上傳JAR和PYTHON文件,然后在SPARK_JAR_ON_MAX_COMPUTE任務中進行引用。具體操作,請參見上傳資源及引用。
前提條件
計算引擎中已開啟Spark任務,如何開啟請參見安全設置。
操作步驟
在Dataphin首頁的頂部菜單欄中,選擇研發 > 數據研發。
在開發頁面的頂部菜單欄選擇項目(Dev-Prod模式需要選擇環境)。
在左側導航欄中選擇數據處理 > 計算任務,在計算任務列表中單擊圖標,選擇SPARK_JAR_ON_MAX_COMPUTE。
在新建SPARK_JAR_ON_MAX_COMPUTE任務對話框中,配置以下參數。
參數
描述
任務名稱
填寫離線計算任務的名稱。
長度不超過256個字符,不支持豎線(|)、正斜線(/)、反斜線(\)、半角冒號(:)、半角問號(?)、尖括號(<>)、星號(*)和半角引號(")。
調度類型
選擇任務的調度類型。調度類型包括:
周期任務:自動參與系統的周期性調度。
手動任務:需要手動觸發任務的運行。
選擇目錄
選擇任務所存放的目錄。
若未創建目錄,您可以新建文件夾,操作方法如下:
在計算任務列表上方單擊圖標,打開新建文件夾對話框。
在新建文件夾對話框中輸入文件夾名稱并根據需要選擇目錄位置。
單擊確定。
使用模板
單擊使用模板開關來選擇是否使用代碼模板。若開啟使用模板,則還需選擇模板和模板版本。
引用代碼模板以實現高效研發,模板任務代碼為只讀不可編輯,您只需配置模板參數即可完成代碼研發。模板創建,請參見新建離線計算模板。
描述
填寫任務的簡單描述,1000個字符以內。
單擊確定。
在當前SPARK_JAR_ON_MAX_COMPUTE任務頁簽下的代碼編輯區域,編寫SPARK_JAR_ON_MAX_COMPUTE計算任務的代碼。代碼編輯完成后,單擊代碼編輯區域上方的運行。代碼示例如下。
@resource_reference{"spark.py"} spark-submit --deploy-mode cluster --conf spark.hadoop.odps.task.major.version=cupid_v2 --conf spark.hadoop.odps.end.point=http://service.cn.maxcompute.aliyun.com/api --conf spark.hadoop.odps.runtime.end.point=http://service.cn.maxcompute.aliyun-inc.com/api --master yarn spark.py
說明resource_reference{}
為引用JAR或Python文件資源包。單擊頁面右側邊欄的屬性,在屬性面板中配置任務的基本信息、運行資源、運行參數、調度屬性(周期任務)、調度依賴(周期任務)、運行配置、資源配置等信息。
基本信息
用于定義調度任務的名稱、對應的責任人、描述等基本信息。配置說明,請參見配置任務基本信息。
運行資源
為運行當前計算任務所分配的CPU和內存資源,默認為0.3核2048MB。配置說明,請參見配置離線任務運行資源。
運行參數
若您的任務中調用了參數變量,您可以在屬性中對參數進行賦值,從而支持節點調度時,參數變量可以自動被替換為相應的變量值。配置說明,請參見配置離線任務運行參數。
調度屬性(周期任務)
如果離線計算任務的調度類型為周期任務,除了基本信息外,還需要配置任務的調度屬性。配置說明,請參見離線任務調度屬性配置。
調度依賴(周期任務)
如果離線計算任務的調度類型為周期任務,除了基本信息外,還需要配置任務的調度依賴。配置說明,請參見配置離線任務調度依賴。
運行配置
您可根據業務場景為離線計算任務配置任務級的運行超時時間和任務運行失敗時的重跑策略。未配置則默認繼承租戶級設置的默認值。配置說明,請參見計算任務運行配置。
資源配置
您可為當前計算任務配置調度資源組,計算任務調度時將占用該資源組的資源配額。配置說明,請參見計算任務資源配置。
在當前SPARK_JAR_ON_MAX_COMPUTE任務頁簽下,保存并提交當前任務。
單擊代碼編輯區域上方的圖標,保存代碼。
單擊代碼編輯區域上方的圖標,提交代碼。
在提交詳情頁面中,需確認提交內容和前置檢查的結果,并填寫備注信息。更多信息,請參見離線計算任務提交說明。
確認完成后,單擊確定并提交。