創(chuàng)建集群
本節(jié)介紹如何使用Databricks數(shù)據(jù)洞察控制臺創(chuàng)建集群。
前提條件
已注冊阿里云賬號,并完成實(shí)名認(rèn)證。詳情請參見阿里云賬號注冊流程。
操作步驟
使用阿里云賬號登錄Databricks數(shù)據(jù)洞察控制臺。
在Databricks數(shù)據(jù)洞察控制臺頁面,選擇所在的地域(Region)。
創(chuàng)建的集群將會在對應(yīng)的地域內(nèi),一旦創(chuàng)建后不能修改。
在左側(cè)導(dǎo)航欄中,單擊集群。
在集群管理頁面,單擊創(chuàng)建集群。
設(shè)置基礎(chǔ)信息。
參數(shù)
描述
集群名稱
集群的名字。長度限制為1~64個字符,僅可使用中文、字母、數(shù)字、連接號(-)和下劃線(_)
Knox賬號
為了更好的安全性,Web UI訪問(如Zeppelin Notebook、Spark UI、Ganglia UI)需要Knox賬號和密碼,來保障您的賬號安全。若無RAM子賬號,請前往RAM控制臺進(jìn)行創(chuàng)建
Knox密碼
兩次確認(rèn)Knox密碼,登錄Web UI時候使用,請您牢記
Databricks Runtime版本
Databricks Runtime的版本信息,版本號與Databricks官方保持一致,包含Scala和Spark的版本。版本詳情請參見Databricks Runtime版本說明
Python版本
默認(rèn)版本為Python 3
付費(fèi)類型
Databricks數(shù)據(jù)洞察支持包年包月和按量付費(fèi)兩種付費(fèi)類型
可用區(qū)
可用區(qū)為在同一地域下的不同物理區(qū)域,可用區(qū)之間內(nèi)網(wǎng)互通。
一般選擇默認(rèn)的可用區(qū)即可,亦可選擇與已購阿里云產(chǎn)品部署在同一個可用區(qū)。
ECS實(shí)例
由Master和Worker兩種類型的節(jié)點(diǎn)組成:
Master節(jié)點(diǎn):主要負(fù)責(zé)集群資源管理和作業(yè)調(diào)度。默認(rèn)節(jié)點(diǎn)個數(shù)為1。
Worker節(jié)點(diǎn):集群的計算節(jié)點(diǎn),主要負(fù)責(zé)作業(yè)的執(zhí)行。最小節(jié)點(diǎn)數(shù)量為3。
元數(shù)據(jù)選擇
推薦選擇數(shù)據(jù)湖元數(shù)據(jù)。
數(shù)據(jù)湖元數(shù)據(jù):表示元數(shù)據(jù)存儲在數(shù)據(jù)湖中。如果沒有開通數(shù)據(jù)湖構(gòu)建服務(wù),需要單擊請前往開通。參見數(shù)據(jù)湖元數(shù)據(jù)管理
統(tǒng)一meta數(shù)據(jù)庫:表示元數(shù)據(jù)存儲在集群本地環(huán)境的MySQL數(shù)據(jù)庫中
獨(dú)立RDS MySQL:表示使用自建的阿里云RDS作為元數(shù)據(jù)庫,更多信息請參見
設(shè)置高級信息。
高級信息包括如下兩方面:
Spark設(shè)置
參數(shù)
描述
Spark配置
輸入Spark的配置信息。配置的屬性值將會更改到spark-defaults.conf文件中。支持的配置列表為spark.apache.org/docs/latest/configuration.html#spark-properties
環(huán)境變量
您可以自定義Spark執(zhí)行的環(huán)境變量。配置的屬性將會更新到spark-env.sh中。
服務(wù)目錄
參數(shù)
描述
類型
包括以下兩種類型:
默認(rèn)值
自定義
OSS路徑
該目錄用來存放集群服務(wù)組件的臨時文件等。
該目錄會作為產(chǎn)品的根目錄來使用。當(dāng)用戶有多個集群時,不需要為每個集群單獨(dú)指定服務(wù)目錄。不同Region需要有不同的服務(wù)目錄,產(chǎn)品會為每個集群在服務(wù)目錄下創(chuàng)建子目錄,即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/。
閱讀并勾選服務(wù)條款。
單擊創(chuàng)建。
集群創(chuàng)建需要時間,當(dāng)狀態(tài)更新為空閑時表示創(chuàng)建成功,請您耐心等待。