本文為您介紹Application開發的配置項說明和操作步驟。
前提條件
已創建工作空間,詳情請參見管理工作空間。
操作步驟
進入開發頁面。
在左側導航欄,選擇
。在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,單擊左側導航欄中的數據開發。
新建任務。
在開發目錄頁簽下,單擊新建。
在彈出的對話框中,輸入名稱,根據實際需求在Application中選擇類型,然后單擊確定。
在右上角選擇隊列。
添加隊列的具體操作,請參見管理資源隊列。
在新建的任務編輯器中,編輯相關參數。
JAR
參數
說明
主jar資源
運行Spark Application時必須的主要JAR包。
工作空間資源:提前在資源上傳頁面上傳的文件。
OSS資源:存儲在阿里云OSS中的文件。
引擎版本
Spark的版本,詳情請參見引擎版本介紹。
Main Class
提交Spark任務時所指定的主類。
運行參數
任務運行過程中所需的配置項或傳遞給主類的自定義參數。多個參數使用空格分隔。
超時時間
此任務的最大完成時間,如果任務運行的時間超過此閾值,系統將自動停止任務運行。默認值為空,表示不設定超時限制。
files資源
在提交Spark Application任務時,通過
--files
參數指定的文件將在任務提交過程中被復制到Executor的工作目錄中,以確保Spark任務在運行時能夠訪問這些文件。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
archives資源
在提交Spark Application任務時,通過
--archives
參數指定的文件將在任務提交過程中被解壓分發到 Executor上的歸檔文件。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
jars資源
在提交Spark Application任務時,通過
--jars
參數指定所需的JAR依賴文件。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
spark.driver.cores
Spark應用程序中驅動程序使用的CPU核心數。
spark.driver.memory
Spark應用程序中驅動程序可用的內存大小。
spark.executor.cores
Spark應用程序中每個執行器(Executor)使用的虛擬CPU核心數。
spark.executor.memory
Spark應用程序中每個執行器(Executor)可用的內存大小。
spark.executor.instances
Spark分配的執行器(Executor)數量。
動態資源分配
默認關閉。開啟后,需要配置以下參數:
executors數量下限:默認為2。
executors數量上限:如果未設置spark.executor.instances,則默認值為10。
更多內存配置
spark.driver.memoryOverhead:每個Driver可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.driver.memory)
。spark.executor.memoryOverhead:每個Executor可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.executor.memory)
。spark.memory.offHeap.size:Spark可用的堆外內存大小。默認值為1 GB。
僅在
spark.memory.offHeap.enabled
設置為true
時生效。默認情況下,當采用Fusion Engine時,該功能將處于啟用狀態,其非堆內存默認設置為1 GB。
Spark配置
填寫Spark配置信息,默認以空格符分隔,例如,
key value
。標簽
填寫標簽鍵值對,可以提升任務管理的便捷性和精確性。
PySpark
參數
說明
主Python資源
運行Spark Application時必須的主要Python文件。
工作空間資源:提前在資源上傳頁面上傳的文件。
OSS資源:存儲在阿里云OSS中的文件。
引擎版本
Spark的版本,詳情請參見引擎版本介紹。
運行參數
任務運行過程中所需的配置項或傳遞給主類的自定義參數。
超時時間
此任務的最大完成時間,如果任務運行的時間超過此閾值,系統將自動停止任務運行。默認值為空,表示不設定超時限制。
運行環境
任務運行所需的資源將根據所選環境進行預配置。
files資源
指定需要分發到集群中所有Executor節點上的文件列表。
在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
pyfiles資源
在提交Spark Application任務時,通過
--py-files
參數指定的文件將作為Python依賴文件在任務提交過程中一并分發。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
archives資源
在提交Spark Application任務時,通過
--archives
參數指定的文件將在任務提交過程中被解壓分發到Executor上的歸檔文件。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
jars資源
在提交Spark Application任務時,通過
--jars
參數指定所需的JAR依賴文件。在指定資源類型時,您可以根據需要選擇工作空間資源或OSS資源。
spark.driver.cores
Spark應用程序中驅動程序使用的CPU核心數。
spark.driver.memory
Spark應用程序中驅動程序可用的內存大小。
spark.executor.cores
Spark應用程序中每個執行器(Executor)使用的虛擬CPU核心數。
spark.executor.memory
Spark應用程序中每個執行器(Executor)可用的內存大小。
spark.executor.instances
Spark分配的執行器(Executor)數量。
動態資源分配
默認關閉。開啟后,需要配置以下參數:
executors數量下限:默認為2。
executors數量上限:如果未設置spark.executor.instances,則默認值為10。
更多內存配置
spark.driver.memoryOverhead:每個Driver可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.driver.memory)
。spark.executor.memoryOverhead:每個Executor可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.executor.memory)
。spark.memory.offHeap.size:Spark可用的堆外內存大小。默認值為1 GB。
僅在
spark.memory.offHeap.enabled
設置為true
時生效。默認情況下,當采用Fusion Engine時,該功能將處于啟用狀態,其非堆內存默認設置為1 GB。
Spark配置
填寫Spark配置信息,默認以空格符分隔,例如,
key value
。標簽
填寫標簽鍵值對,可以提升任務管理的便捷性和精確性。
SQL
參數
說明
SQL文件
提交任務時所需的文件。
工作空間資源:提前在資源上傳頁面上傳的文件。
OSS資源:存儲在阿里云OSS中的文件。
引擎版本
Spark的版本,詳情請參見引擎版本介紹。
超時時間
此任務的最大完成時間,如果任務運行的時間超過此閾值,系統將自動停止任務運行。默認值為空,表示不設定超時限制。
spark.driver.cores
Spark應用程序中驅動程序使用的CPU核心數。
spark.driver.memory
Spark應用程序中驅動程序可用的內存大小。
spark.executor.cores
Spark應用程序中每個執行器(Executor)使用的虛擬CPU核心數。
spark.executor.memory
Spark應用程序中每個執行器(Executor)可用的內存大小。
spark.executor.instances
Spark分配的執行器(Executor)數量。
動態資源分配
默認關閉。開啟后,需要配置以下參數:
executors數量下限:默認為2。
executors數量上限:如果未設置spark.executor.instances,則默認值為10。
更多內存配置
spark.driver.memoryOverhead:每個Driver可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.driver.memory)
。spark.executor.memoryOverhead:每個Executor可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.executor.memory)
。spark.memory.offHeap.size:Spark可用的堆外內存大小。默認值為1 GB。
僅在
spark.memory.offHeap.enabled
設置為true
時生效。默認情況下,當采用Fusion Engine時,該功能將處于啟用狀態,其非堆內存默認設置為1 GB。
Spark配置
填寫Spark配置信息,默認以空格符分隔,例如,
key value
。標簽
填寫標簽鍵值對,可以提升任務管理的便捷性和精確性。
Spark Submit
參數
說明
引擎版本
Spark的版本,詳情請參見引擎版本介紹。
腳本
填寫您的Spark Submit腳本。
例如,腳本內容如下。
--class org.apache.spark.examples.SparkPi \ --conf spark.executor.memory=2g \ oss://<YourBucket>/spark-examples_2.12-3.3.1.jar
超時時間
此任務的最大完成時間,如果任務運行的時間超過此閾值,系統將自動停止任務運行。默認值為空,表示不設定超時限制。
spark.driver.cores
Spark應用程序中驅動程序使用的CPU核心數。
spark.driver.memory
Spark應用程序中驅動程序可用的內存大小。
spark.executor.cores
Spark應用程序中每個執行器(Executor)使用的虛擬CPU核心數。
spark.executor.memory
Spark應用程序中每個執行器(Executor)可用的內存大小。
spark.executor.instances
Spark分配的執行器(Executor)數量。
動態資源分配
默認關閉。開啟后,需要配置以下參數:
executors數量下限:默認為2。
executors數量上限:如果未設置spark.executor.instances,則默認值為10。
更多內存配置
spark.driver.memoryOverhead:每個Driver可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.driver.memory)
。spark.executor.memoryOverhead:每個Executor可利用的非堆內存。如果未設置該參數,Spark會根據默認值自動分配,默認值為
max(384MB, 10% × spark.executor.memory)
。spark.memory.offHeap.size:Spark可用的堆外內存大小。默認值為1 GB。
僅在
spark.memory.offHeap.enabled
設置為true
時生效。默認情況下,當采用Fusion Engine時,該功能將處于啟用狀態,其非堆內存默認設置為1 GB。
Spark配置
填寫Spark配置信息,默認以空格符分隔,例如,
key value
。標簽
填寫標簽鍵值對,可以提升任務管理的便捷性和精確性。
(可選)在任務開發頁面右側,您可以單擊版本信息頁簽,查看版本信息或進行版本對比。
運行并發布任務。
單擊運行。
運行任務后,您可以在下方的運行記錄區域,單擊操作列的詳情,跳轉至任務總覽頁,查看該任務的詳細信息。
單擊右上角的發布。
在發布對話框中,可以輸入發布信息,然后單擊確定。
相關文檔
JAR任務完整的開發流程示例,請參見JAR開發快速入門。
Spark Submit任務完整的開發流程示例,請參見Spark Submit開發快速入門。
SQL任務和任務編排完整的開發流程示例,請參見SQL開發快速入門。
PySpark批任務完整的開發流程示例,請參見PySpark開發快速入門。
PySpark流任務完整的開發流程示例,請參見通過Serverless Spark提交PySpark流任務。