日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

PySpark開發快速入門

您可以自行編寫并構建包含業務邏輯的Python腳本,上傳該腳本后,即可便捷地進行PySpark開發。本文通過一個示例,為您演示如何進行PySpark開發。

前提條件

操作步驟

步驟一:準備測試文件

在EMR Serverless Spark中,支持使用本地或獨立的開發平臺完成Python文件的開發,并將任務提交至EMR Serverless Spark中運行。本快速入門為了帶您快速熟悉PySpark任務,為您提供了測試文件,您可以直接下載以供后續步驟使用。

單擊DataFrame.pyemployee.csv,直接下載測試文件。

說明
  • DataFrame.py文件是一段使用Apache Spark框架進行OSS上數據處理的代碼。

  • employee.csv文件中定義了一個包含員工姓名、部門和薪水的數據列表。

步驟二:上傳測試文件

  1. 上傳Python文件到EMR Serverless Spark。

    1. 進入資源上傳頁面。

      1. 登錄E-MapReduce控制臺

      2. 在左側導航欄,選擇EMR Serverless > Spark

      3. Spark頁面,單擊目標工作空間名稱。

      4. 在EMR Serverless Spark頁面,單擊左側導航欄中的文件管理

    2. 文件管理頁面,單擊上傳文件

    3. 上傳文件對話框中,單擊待上傳文件區域選擇Python文件,或直接拖拽Python文件到待上傳文件區域。

      本文示例是上傳DataFrame.py。

  2. 上傳數據文件(employee.csv)到阿里云對象存儲OSS控制臺,詳情請參見文件上傳

步驟三:開發并運行任務

  1. 在EMR Serverless Spark頁面,單擊左側的數據開發

  2. 單擊新建

  3. 在彈出的對話框中,輸入名稱,類型使用Application(批任務) > PySpark,單擊確定

  4. 在右上角選擇隊列。

    添加隊列的具體操作,請參見管理資源隊列

  5. 在新建的開發頁簽中,配置以下信息,其余參數無需配置,然后單擊運行

    參數

    說明

    主Python資源

    選擇前一個步驟中在文件管理頁面上傳的Python文件。本文示例是DataFrame.py。

    運行參數

    填寫數據文件(employee.csv)上傳到OSS的路徑。例如,oss://<yourBucketName>/employee.csv。

  6. 運行任務后,在下方的運行記錄區域,單擊任務操作列的詳情

  7. 任務歷史中的開發任務頁面,您可以查看相關的日志信息。

    image

步驟四:發布任務

重要

已發布的任務可以作為工作流節點的任務。

  1. 任務運行完成后,單擊右側的發布

  2. 在任務發布對話框中,您可以輸入發布信息,然后單擊確定

步驟五:查看Spark UI

任務正常運行后,您可以在Spark UI上查看任務的運行情況。

  1. 在左側導航欄,單擊任務歷史

  2. 單擊開發任務

  3. 開發任務頁面,單擊目標任務操作列的詳情

  4. 任務總覽頁簽,單擊Spark UI。

    image

  5. 在Spark Jobs頁面,您可以查看任務詳情。

    image

相關文檔