本文為您介紹如何通過阿里云賬號登錄E-MapReduce(簡稱EMR)控制臺,快速創建一個DataLake集群并執行作業。
前提條件
注意事項
代碼的運行環境由所屬用戶負責管理和配置。
操作流程
在EMR控制臺,快速創建一個DataLake集群。
集群創建成功后,您可以創建并執行Spark類型的作業。
提交作業后,您可以通過YARN UI方式查看作業運行記錄。
如果不再使用該集群,可以釋放集群以節約成本。
步驟一:創建集群
進入創建集群頁面。
在頂部菜單欄處,根據實際情況選擇地域和資源組。
地域:創建的集群會在對應的地域內,一旦創建不能修改。
資源組:默認顯示賬號全部資源。
單擊上方的創建集群。
在創建集群頁面,完成集群相關配置。
配置區域
配置項
示例
描述
軟件配置
地域
華東1(杭州)
集群節點ECS實例所在的物理位置。
重要集群創建后,無法更改地域,請謹慎選擇。
業務場景
數據湖
選擇適合的業務場景,創建集群時阿里云EMR會自動為您配置默認的組件、服務和資源,以簡化集群配置,并提供符合特定業務場景需求的集群環境。
產品版本
EMR-5.14.0
當前最新的軟件版本。
服務高可用
不開啟
默認不開啟。打開服務高可用開關后,EMR會把Master節點分布在不同的底層硬件上以降低故障風險。
可選服務
HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。
根據您的實際需求選擇組件,被選中的組件會默認啟動相關的服務進程。
說明除過集群默認的服務,還需選擇Knox和OpenLDAP服務。
允許采集服務運行日志
開啟
支持一鍵開啟或關閉所有服務的日志采集。默認開啟,將收集您的服務運行日志,這些日志僅供集群診斷使用。
集群創建后,您可以在基礎信息頁面,修改服務運行日志收集狀態。
重要關閉日志采集后,EMR的健康檢查和技術支持將受到限制,但其他功能仍可正常使用。如何關閉及影響詳情,請參見如何停止采集服務日志?。
元數據
DLF統一元數據
表示元數據存儲在數據湖構建DLF中。
系統會為您選擇默認的DLF數據目錄,如果您不同集群期望使用不同的數據目錄,可以單擊創建數據目錄。
說明選擇該方式時,需要開通阿里云數據湖構建服務。
集群存儲根路徑
1366993922******
當您在可選服務區域選擇了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。
說明在選擇使用OSS-HDFS服務之前,請確保您選擇的地域支持該服務。否則,您可以嘗試更換地域或使用HDFS服務替代OSS-HDFS服務。OSS-HDFS服務目前支持的地域信息,請參見開通并授權訪問OSS-HDFS服務。
EMR-5.12.1及后續版本,EMR-3.46.1及后續版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務。
硬件配置
付費類型
按量付費
在測試場景下,建議使用按量付費,測試正常后可以釋放該集群,再新建一個包年包月的生產集群正式使用。
可用區
可用區 I
集群創建后,無法直接更改可用區,請謹慎選擇。
專有網絡
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
選擇對應區域下的專有網絡。如果沒有,單擊創建VPC前往新建。創建專有網絡完成后,單擊刷新,可以選擇剛創建好的VPC。
交換機
vsw_i/vsw-bp1e2f5fhaplp0g6p****
選擇在對應專有網絡下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要新創建一個。
默認安全組
sg_seurity/sg-bp1ddw7sm2risw****
重要禁止使用ECS上創建的企業安全組。
如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個安全組。
節點組
打開Master節點組下的掛載公網開關,其余使用默認值即可。
您可以根據業務訴求,配置Master節點組、Core節點組或Task節點組信息。詳情請參見選型配置說明。
基礎配置
集群名稱
Emr-DataLake
集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。
身份憑證
密碼。
用于遠程登錄集群的Master節點。
登錄密碼和確認密碼
自定義密碼。
請記錄該配置,登錄集群時您需要輸入該密碼。
選中服務協議,單擊確認訂單。
在EMR on ECS頁面,當集群狀態顯示為運行中時,表示集群創建成功。更多集群參數信息,請參見創建集群。
步驟二:創建并執行作業
集群創建成功后,您可以在該集群創建并執行作業。
通過SSH方式連接集群,詳情請參見登錄集群。
在命令行執行以下命令,提交并運行作業。
本文以Spark 3.1.1版本為例,輸入的命令示例如下。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
說明spark-examples_2.12-3.1.1.jar
為您集群中對應的JAR包名稱,您可以登錄集群,在/opt/apps/SPARK3/spark-current/examples/jars
路徑下查看。
步驟三:查看作業運行記錄
提交作業后,您可以通過YARN UI方式查看作業運行記錄。
(可選)步驟四:釋放集群
如果您創建的集群不再使用時,可以釋放集群節約成本。確認集群釋放后,系統會對集群進行如下處理:
強制終止集群上的所有作業。
終止并釋放所有的ECS實例。
這個過程所需時間取決于集群的大小,集群越小釋放越快。通常在幾秒內可以完成釋放,至多不會超過5分鐘。
按量付費的集群可以隨時釋放,包年包月的集群到期后才能釋放。
釋放集群前,請確保集群狀態是初始化中、運行中或空閑。
在EMR on ECS頁面,選擇目標集群所在行的
。您還可以單擊目標集群的集群名稱,然后在基礎信息頁面,選擇右上角的
。在彈出的對話框中,單擊確定。
相關文檔
常見問題
了解使用阿里云E-MapReduce的常見問題:常見問題。