Spark Submit開發(fā)快速入門
EMR Serverless Spark兼容spark-submit命令行參數(shù),簡化了任務(wù)執(zhí)行流程。本文通過一個示例,為您演示如何進行Spark Submit開發(fā),確保您能夠快速上手。
前提條件
已創(chuàng)建工作空間,詳情請參見管理工作空間。
已提前完成業(yè)務(wù)應(yīng)用程序開發(fā),并構(gòu)建好JAR包。
操作步驟
步驟一:開發(fā)JAR包
本快速入門旨在帶您快速熟悉Spark Submit任務(wù),為您提供了工程文件以及測試JAR包,您可以直接下載以備后續(xù)步驟使用。
單擊spark-examples_2.12-3.3.1.jar,直接下載測試JAR包。
該JAR包是Spark自帶的一個簡單示例,用于計算圓周率π的值。
步驟二:上傳JAR包至OSS
本文示例是上傳spark-examples_2.12-3.3.1.jar,上傳操作可以參見簡單上傳。
步驟三:開發(fā)并運行任務(wù)
在EMR Serverless Spark頁面,單擊左側(cè)的數(shù)據(jù)開發(fā)。
單擊新建。
輸入名稱,類型選擇
,然后單擊確定。在右上角選擇隊列。
添加隊列的具體操作,請參見管理資源隊列。
在新建的任務(wù)開發(fā)中,配置以下信息,其余參數(shù)無需配置,然后單擊運行。
參數(shù)
說明
腳本
填寫您的Spark Submit腳本。
例如,腳本內(nèi)容如下。
--class org.apache.spark.examples.SparkPi \ --conf spark.executor.memory=2g \ oss://<YourBucket>/spark-examples_2.12-3.3.1.jar
在下方的運行記錄區(qū)域,單擊任務(wù)操作列的詳情。
在日志探查頁簽,您可以查看相關(guān)的日志信息。
步驟四:發(fā)布任務(wù)
已發(fā)布的任務(wù)可以作為工作流節(jié)點的任務(wù)。
任務(wù)運行完成后,單擊右側(cè)的發(fā)布。
在任務(wù)發(fā)布對話框中,可以輸入發(fā)布信息,然后單擊確定。
(可選)步驟五:查看Spark UI
任務(wù)正常運行后,您可以在Spark UI上查看任務(wù)的運行情況。
在左側(cè)導(dǎo)航欄,單擊任務(wù)歷史。
單擊開發(fā)任務(wù)。
在開發(fā)任務(wù)頁面,單擊目標(biāo)任務(wù)操作列的Spark UI。
將自動打開Spark UI頁面,可查看任務(wù)詳情。
相關(guān)文檔
任務(wù)發(fā)布完成后,您可以在工作流調(diào)度中使用,詳情請參見管理工作流。任務(wù)編排完整的開發(fā)流程示例,請參見SQL開發(fā)快速入門。