本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
在Databricks數據開發中,您可以在項目空間的作業編輯中創建一組有依賴的Zeppelin作業,然后創建工作流,按照依賴次序定義執行順序,Databricks工作流支持基于有向無環(DAG)并行執行大數據作業。
前提條件
通過主賬號登錄阿里云 Databricks控制臺。
已創建集群,具體請參見創建集群。
已創建好需要使用的Notebook,具體請參見使用Notebook。
新建項目空間
通過以下步驟,可以新建項目空間。
在Databricks控制臺頁面,單擊左側導航欄的項目空間。
單擊新建項目。
填寫項目名稱、項目描述、單擊確定。
創建zeppelin作業
進入項目在二級菜單中新建作業。
填寫作業名稱、作業描述,作業類型選擇zeppline、單擊確定
編輯調度Notebook、單擊保存
使用作業調度Notebook有2種方式
方式一:使用OSS路徑調度Notebook
oss://ddi-cn-hangzhou-123456789/DDI_C-464E4772BC68CBB/jfs_root/zeppelin/notebooks/case_2FS1V4ZZB.zpln
說明您創建并編輯的Notebook存儲在對應集群所在的OSS文件中,您可以在作業中編寫Notebook所在的OSS路徑來調度作業
方式二:使用Notebook ID調度Notebook
您可以在作業編輯區填寫Notebook ID來調度Notebook。
說明您可以在Zeppelin里Notebook URL鏈接尾部中找到NotebooK ID。如下圖所示
警告使用Notebook ID調度Notebook只能使用當前Notebook所在集群運行作業,否則會無法成功運行。工作流調度作業時,請注意并設置好運行集群。
設置作業參數(Knox)
作業調度Notebook,需要配置執行集群knox賬號相關的參數來連接作業和Notebook,具體操作步驟如下:
單擊作業設置
左側抽屜中單擊高級設置
在Notebook連接中添加用戶名、密碼
使用工作流調度作業
二級菜單新建工作流。
填寫工作流名稱、工作流描述、執行集群。
單擊確定
編輯工作流
在工作流畫布上,拖拽不同類型的作業節點到畫布上,并進行節點編輯,選擇相關zeppelin作業。
根據依賴關系,從節點底部中心可連接到另一節點上部中心。
完成依賴關系后,再添建END組件。
單擊畫布上方保存。
單擊運行,可以調度Zeppelin作業
說明你可以設置工作流配置,配置調度屬性。詳情請參考工作流使用案例