本文為您介紹如何在E-MapReduce(簡稱EMR)控制臺上創(chuàng)建EMR Studio集群。
前提條件
已完成RAM授權(quán),詳細(xì)信息請參見角色授權(quán)。
說明 首次創(chuàng)建EMR Studio集群時(shí)會(huì)彈出授權(quán)該角色的窗口,請使用阿里云賬號對系統(tǒng)角色AliyunECSInstanceForEMRStudioRole進(jìn)行授權(quán)。
使用限制
EMR Studio集群僅支持綁定到同一個(gè)VPC內(nèi)的EMR集群,不支持跨VPC。
注意事項(xiàng)
截止2022年10月14日,EMR Studio已正式停止運(yùn)維更新,也不提供新建該類型集群的入口,但已有集群的功能使用不受影響。
操作步驟
- 進(jìn)入創(chuàng)建集群頁面。
- 登錄阿里云E-MapReduce控制臺。
- 在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
- 地域:創(chuàng)建的集群將會(huì)在對應(yīng)的地域內(nèi),一旦創(chuàng)建不能修改。
- 資源組:默認(rèn)顯示賬號全部資源。
- 單擊創(chuàng)建集群,進(jìn)行創(chuàng)建。
- 在創(chuàng)建集群頁面,完成集群相關(guān)配置。創(chuàng)建集群時(shí),您需要對集群進(jìn)行軟件配置、硬件配置和基礎(chǔ)配置。重要 集群創(chuàng)建完成后,除了集群名稱以外,其他配置均無法修改,所以在創(chuàng)建時(shí)請仔細(xì)確認(rèn)各項(xiàng)配置。
- 軟件配置。
配置項(xiàng) 描述 集群類型 選擇EMR Studio。 產(chǎn)品版本 默認(rèn)最新的軟件版本。 必選服務(wù) 默認(rèn)的服務(wù)組件,后期可以在管理頁面中啟停服務(wù)。 高級設(shè)置 軟件自定義配置:可指定JSON文件對集群中的基礎(chǔ)軟件(例如Hadoop、Spark和Hive等)進(jìn)行配置,詳細(xì)使用方法請參見軟件配置。默認(rèn)不開啟。 - 硬件配置。
區(qū)域 配置項(xiàng) 描述 付費(fèi)類型 付費(fèi)類型 默認(rèn)包年包月。當(dāng)前支持的付費(fèi)類型如下: - 按量付費(fèi):一種后付費(fèi)模式,即先使用再付費(fèi)。按量付費(fèi)是根據(jù)實(shí)際使用的小時(shí)數(shù)來支付費(fèi)用,每小時(shí)計(jì)費(fèi)一次,適合短期的測試任務(wù)或是靈活的動(dòng)態(tài)任務(wù)。
- 包年包月:一種預(yù)付費(fèi)模式,即先付費(fèi)再使用。
網(wǎng)絡(luò)配置 可用區(qū) 可用區(qū)為在同一地域下的不同物理區(qū)域,可用區(qū)之間內(nèi)網(wǎng)互通。通常使用默認(rèn)的可用區(qū)即可。 網(wǎng)絡(luò)類型 默認(rèn)專有網(wǎng)絡(luò)。 VPC 選擇在該地域的VPC。如果沒有可用的VPC,單擊創(chuàng)建VPC/子網(wǎng)(交換機(jī))前往新建。 重要 因?yàn)镋MR Studio集群僅支持關(guān)聯(lián)同一個(gè)VPC內(nèi)的EMR計(jì)算集群,所以創(chuàng)建EMR Studio集群時(shí)需要選擇與EMR計(jì)算集群相同的VPC。交換機(jī) 選擇在對應(yīng)VPC下可用區(qū)的交換機(jī),如果在這個(gè)可用區(qū)沒有可用的交換機(jī),則需要新創(chuàng)建一個(gè)。 安全組名稱 選擇已有的安全組。安全組詳情請參見安全組概述。 您也可以單擊新建安全組,然后直接輸入安全組名稱來新建一個(gè)安全組。
重要 禁止使用ECS上創(chuàng)建的企業(yè)安全組。實(shí)例 選型配置 EMR Studio最小模型為1個(gè)Master,Core數(shù)量可以為0。Core數(shù)量會(huì)影響Airflow的運(yùn)行模式,不影響其他組件。如果Core數(shù)量為0,則Airflow的運(yùn)行模式就是Local模式(LocalExecutor),如果Core數(shù)量大于0,則Airflow的運(yùn)行模式是分布式模式(CeleroyExecutor)。建議您根據(jù)業(yè)務(wù)創(chuàng)建選擇集群規(guī)模: - Master實(shí)例:主要負(fù)責(zé)Master組件的部署,推薦機(jī)型ecs.c7.2xlarge。您可以根據(jù)實(shí)際負(fù)載調(diào)整實(shí)例規(guī)格。
- 系統(tǒng)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
- 系統(tǒng)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少200 GB。
- 數(shù)據(jù)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
- 數(shù)據(jù)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少300 GB。
- Master數(shù)量:默認(rèn)1臺。
- Core實(shí)例:主要負(fù)責(zé)集群所有數(shù)據(jù)的存儲(chǔ),推薦機(jī)型ecs.c7.2xlarge。您可以根據(jù)實(shí)際負(fù)載調(diào)整實(shí)例規(guī)格。
- 系統(tǒng)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
- 系統(tǒng)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少200 GB。
- 數(shù)據(jù)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
- 數(shù)據(jù)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少300 GB。
- Core數(shù)量:默認(rèn)1臺,可以根據(jù)業(yè)務(wù)場景調(diào)整。
- 僅使用EMR Studio Notebook組件,無調(diào)度場景,Core數(shù)量可以為0。
- 需要使用Airflow進(jìn)行調(diào)度,Core數(shù)量至少為1。
- 基礎(chǔ)配置。
區(qū)域 配置項(xiàng) 描述 基礎(chǔ)信息 集群名稱 集群的名字,長度限制為1~64個(gè)字符,僅可使用中文、字母、數(shù)字、短劃線(-)和下劃線(_)。 元數(shù)據(jù)選擇 配置Airflow元數(shù)據(jù)。 - 集群內(nèi)置MySQL:表示元數(shù)據(jù)存儲(chǔ)在集群本地環(huán)境的MySQL數(shù)據(jù)庫中。
- 使用自建RDS:表示使用自建的阿里云RDS作為元數(shù)據(jù)庫,更多信息請參見配置獨(dú)立RDS MySQL。
數(shù)據(jù)開發(fā)存儲(chǔ) EMR Studio集群的數(shù)據(jù)都會(huì)存在OSS上,即使您的EMR Studio集群銷毀了,您可以通過重新創(chuàng)建集群來恢復(fù)原有集群的狀態(tài)(包括您的Notebook以及Airflow調(diào)度的作業(yè)),并且代碼和配置都不會(huì)丟失。 EMR Studio集群會(huì)在您所選OSS路徑下創(chuàng)建logs、dags和notebook三個(gè)文件夾:- logs:在/airflow/目錄下,用于存儲(chǔ)Airflow調(diào)度的日志信息。
- dags:在/airflow/目錄下,用于存儲(chǔ)Airflow DAG腳本。
- notebook:在/zeppelin/目錄下,用于存儲(chǔ)Notebook信息。
掛載公網(wǎng) 集群是否掛載彈性公網(wǎng)IP地址,建議在創(chuàng)建時(shí)開啟掛載公網(wǎng)。未開啟或是關(guān)閉掛載公網(wǎng),將無法使用EMR控制臺訪問鏈接與端口功能查看開源組件Web UI。 說明 如果創(chuàng)建集群時(shí),未開啟掛載公網(wǎng),您可以參見彈性公網(wǎng)IP中申請EIP的內(nèi)容處理,或技術(shù)支持處理。密鑰對 關(guān)于密鑰對的使用詳情,請參見SSH密鑰對。 密碼 設(shè)置Master節(jié)點(diǎn)的登錄密碼,密碼規(guī)則:8~30個(gè)字符,且必須同時(shí)包含大寫字母、小寫字母、數(shù)字和特殊字符。 特殊字符包括:感嘆號(!)、at(@)、井號(#)、美元符號($)、百分號(%)、乘方(^)、and(&)和星號(*)。
高級設(shè)置 添加用戶 添加訪問開源大數(shù)據(jù)軟件Web UI的賬號。 權(quán)限設(shè)置 通過RAM角色為在集群上運(yùn)行的應(yīng)用程序提供調(diào)用其他阿里云服務(wù)所需的必要權(quán)限,無需調(diào)整,使用默認(rèn)即可。 - 服務(wù)角色:用戶將權(quán)限授予EMR服務(wù),允許EMR代表用戶調(diào)用其他阿里云的服務(wù),例如ECS和OSS。
- ECS應(yīng)用角色:當(dāng)用戶的程序在EMR計(jì)算節(jié)點(diǎn)上運(yùn)行時(shí),可不填寫阿里云AccessKey來訪問相關(guān)的云服務(wù)(例如OSS),EMR會(huì)自動(dòng)申請一個(gè)臨時(shí)AccessKey來授權(quán)本次訪問。ECS應(yīng)用角色用于控制這個(gè)AccessKey的權(quán)限。
數(shù)據(jù)盤加密 默認(rèn)不開啟。 打開加密開關(guān),即啟動(dòng)對集群節(jié)點(diǎn)ECS中所有屬性為云盤的數(shù)據(jù)盤進(jìn)行加密的功能。默認(rèn)使用服務(wù)密鑰為用戶的數(shù)據(jù)進(jìn)行加密,也支持使用用戶自選密鑰為用戶的數(shù)據(jù)進(jìn)行加密。重要 不支持加密本地盤。引導(dǎo)操作 可選配置,您可以在集群啟動(dòng)Hadoop前執(zhí)行您自定義的腳本,詳情請參見引導(dǎo)操作。 標(biāo)簽 可選配置,您可以在創(chuàng)建集群時(shí)綁定標(biāo)簽,也可以在集群創(chuàng)建完成后,在集群詳情頁綁定標(biāo)簽,詳情請參見設(shè)置標(biāo)簽。 資源組 可選配置。詳情請參見使用資源組。 說明 頁面右邊會(huì)顯示您所創(chuàng)建集群的配置清單以及集群費(fèi)用。根據(jù)不同的付費(fèi)類型,展示不同的價(jià)格信息。
- 軟件配置。
- 當(dāng)所有的信息確認(rèn)正確有效后,選中服務(wù)條款,單擊創(chuàng)建。重要
- 按量付費(fèi)集群:立刻開始創(chuàng)建。
集群創(chuàng)建完成后,集群的狀態(tài)變?yōu)?span id="z68uejxpaoma" class="ph uicontrol" id="uicontrol-xou-g7r-3wi">空閑。
- 包年包月集群:先生成訂單,在支付完成訂單以后集群才會(huì)開始創(chuàng)建。
- 按量付費(fèi)集群:立刻開始創(chuàng)建。