日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

Spark應用開發介紹

更新時間:

云原生數據倉庫 AnalyticDB MySQL 版Spark離線應用和流應用的開發方法相同。本文介紹如何進行Spark作業開發。

開發工具

示例代碼

本文以讀取OSS數據為例,描述了Spark應用代碼的編寫方式,其中包括應用名稱、conf配置參數等通用參數,還包括Java、Scala、Python應用的特定配置參數。命令行參數格式為JSON格式。示例如下:

 {
  "args": ["args0", "args1"],
  "name": "spark-oss-test",
  "file": "oss://<testBucketName>/jars/test/spark-examples-0.0.1-SNAPSHOT.jar",
  "className": "com.aliyun.spark.oss.SparkReadOss",
  "conf": {
    "spark.driver.resourceSpec": "medium",
    "spark.executor.resourceSpec": "medium",
    "spark.executor.instances": 2,
    "spark.adb.connectors": "oss"
  }
}

通用參數

參數名稱

是否必填

示例值

使用說明

name

"name": "spark-oss-test"

Spark應用名稱。

file

Python/Java/Scala應用必填

"file":"oss://<testBucketName>/jars/test/spark-examples-0.0.1-SNAPSHOT.jar"

Spark應用主文件的存儲路徑,文件路徑需為絕對路徑。主文件是入口類所在的JAR包或者Python的入口執行文件。

    重要

    Spark應用主文件目前只支持存儲在OSS中。

    OSS Bucket與AnalyticDB for MySQL集群需要在同一地域。

files

"files":["oss://<testBucketName>/path/to/files_name1","oss://<testBucketName>/path/to/files_name2"]

Spark應用依賴的文件資源,文件會被下載到Driver和Executor進程的當前執行目錄下。

支持配置文件別名,例如oss://<testBucketName>/test/test1.txt#test1,test1為文件別名,您可以使用./test1或者./test1.txt訪問文件。

多個文件中間用英文逗號(,)分隔。

說明
  • files中包含名為log4j.properties的文件時,Spark會使用該log4j.properties文件作為日志配置。

  • Spark應用所依賴的所有文件須存儲在OSS中。

archives

"archives":["oss://<testBucketName>/path/to/archives","oss://<testBucketName>/path/to/archives"]

Spark應用依賴的壓縮包資源,目前支持.TAR.GZ后綴。壓縮包會被解壓到當前Spark進程的當前目錄下。

支持配置文件別名,例如oss://testBucketName/test/test1.tar.gz#test1,test1為文件別名。假設test2.txt是test1.tar.gz壓縮包中的文件,您可以使用./test1/test2.txt或者./test1.tar.gz/test2.txt訪問解壓后的文件。

多個壓縮包中間使用英文逗號(,)分隔。

說明

Spark應用所依賴的所有壓縮包須存儲在OSS中。壓縮包解壓縮失敗,任務會失敗。

conf

"conf":{"spark.driver.resourceSpec": "medium",spark.executor.resourceSpec":"medium,"spark.executor.instances": 2,"spark.adb.connectors": "oss"}

與開源Spark中的配置項基本一致,參數格式為key: value形式,多個參數之間以英文逗號(,)分隔。與開源Spark用法不一致的配置參數及AnalyticDB for MySQL特有的配置參數,請參見Spark應用配置參數說明

Java應用參數

參數名稱

是否必填

示例值

使用說明

args

"args":["args0", "args1"]

請根據業務需求,填寫使用JAR包時需要使用的參數。多個參數之間以英文逗號(,)分隔。

className

"className":"com.aliyun.spark.oss.SparkReadOss"

Java程序入口類名稱。

jars

"jars":["oss://<testBucketName>/path/to/jar","oss://testBucketName/path/to/jar"]

Spark應用依賴的JAR包,多個JAR包之間以英文逗號(,)分隔。需填寫JAR包文件的絕對路徑。JAR包在運行時會被加入到Driver和Executor JVM的ClassPath里面。

重要
  • Spark應用所依賴的所有JAR包須存儲在OSS中。

  • OSS Bucket與AnalyticDB for MySQL集群需要在同一地域。

Scala應用參數

參數名稱

是否必填

示例值

使用說明

className

"className":"com.aliyun.spark.oss.SparkReadOss"

Scala程序入口類名稱。

jars

"jars":["oss://<testBucketName>/path/to/jar","oss://testBucketName/path/to/jar"]

Spark應用依賴的JAR包,多個JAR包之間以英文逗號(,)分隔。需填寫JAR包文件的絕對路徑。JAR包在運行時會被加入到Driver和Executor JVM的ClassPath里面。

重要
  • Spark應用所依賴的所有JAR包須存儲在OSS中。

  • OSS Bucket與AnalyticDB for MySQL集群需要在同一地域。

Python應用參數

參數名稱

是否必填

示例值

使用說明

pyFiles

"pyFiles":["oss://<testBucketName>/path/to/pyfiles","oss://<testBucketName>/path/to/pyfiles"]

PySpark依賴的Python文件,后綴可以是ZIP、PY和EGG。如果依賴多個Python文件,建議使用ZIP或者EGG壓縮包。您可以在Python代碼中以module方式引用Python文件。多個壓縮包中間使用英文逗號(,)分隔。

說明

Spark應用所依賴的所有Python文件須存儲在OSS中。