本文匯總使用EMR Serverless Spark過程中涉及的基本概念,方便查詢和了解EMR Serverless Spark。
概念 | 說明 |
工作空間(Workspace) | 工作空間是EMR Serverless Spark為業務開發劃分的基本單元,是任務、資源和權限的集合。每個工作空間的任務、計算資源以及權限都是隔離的。 |
資源隊列(Resouce Queue) | EMR Serverless Spark采用CU(Compute Unit)作為其基本計量單位。更多CU信息,請參見產品計費。 對于單個Spark計算節點,無論是Driver還是Executor,其資源分配根據vCore及內存配置,可以靈活配備一個或多個CU。平臺為每個計算節點配備的本地存儲空間最小為20GiB,最大可達160GiB。一個任務的CU使用量取決于輸入任務的計算復雜度,以及所依賴的數據分布情況。您可以在任務列表中查看一個任務實例的CU消耗情況。 |
會話資源(Spark Session) | 會話資源是EMR Serverless Spark工作空間中可用的Spark Session,能夠部署于隊列中,并為用戶提供運行SQL語句和Notebook環境的基礎資源。您可以在會話資源中更改關聯的引擎版本及隊列信息,并根據實際需求調整Spark參數配置。 |
發布(Publish) | 為了避免修改中的文件草稿內容影響正常調度任務,您需要在確定任務修改完成后,發布該草稿文件。該流程主要是將您的開發環境與生產環境隔離。 |
任務實例(JobRun) | 在任務編排系統中,Workflow的運行通常會對應一個JobRunID,表示一個任務實例。 |
工作流(Workflow) | 工作流是指由一系列相關任務組成的有序流程,每個任務之間有明確的依賴關系和執行順序。 |
用戶(Account) | 用戶是訪問控制功能中的概念,支持將RAM用戶添加為成員,并授予相應的權限,才能操作工作空間中的任務、資源等。 |
角色(Account Role) | 角色是訪問控制功能中的概念。多個用戶可以同時存在于一個角色下,一個用戶也可以隸屬于多個角色。給角色授權后,該角色下的所有用戶擁有相同的權限。 |