Notebook是由一個或多個Note單元組成的,每個Note是一個獨立的Spark任務。本文介紹如何使用Notebook。

前提條件

已創建Note,詳情請參見管理Notebook。

開發Note

  1. 使用阿里云賬號登錄Databricks數據洞察控制臺。
  2. 在Databricks數據洞察控制臺頁面,選擇所在的地域(Region)。
    創建的集群將會在對應的地域內,一旦創建后不能修改。
  3. 在左側導航欄中,單擊Notebook
  4. Notebook區域,選擇待操作的集群。
  5. DataInsight Notebook頁面,單擊創建好的Note名。
    您可在單元格里編輯Spark作業。

    單元格的第一行需要指定Interpreter。DataInsight Notebook目前支持以下6種Interpreter。

    Interpreter 說明
    %spark 提供了Scala環境。
    %spark.pyspark 提供了Python環境。
    %spark.ipyspark 提供了IPython環境。
    %spark.r 提供了R環境,支持SparkR。
    %spark.sql 提供了SQL環境。
    %spark.kotlin 提供了Kotlin環境。

添加單元格

DataInsight Notebook頁面,將鼠標移動到任意已存在單元格的頂部或底部,單擊+ Add Paragraph,即可在頁面上添加新的單元格。

創建表

  1. 單擊已創建的Note名稱。
  2. DataInsight Notebook頁面,在單元格中創建數據庫。
    %spark.sql
    
    create database db_demo location 'oss://databricks-dbr/db_demo_database';
  3. 在單元格創建表。
    %spark.sql
    
    use db_demo;
    
    create table db_bank_demo(age string, job string, marital string, education string, default string, balance string, housing string, loan string, contact string, day string, month string, duration string, campaign string, pdays string, previous string, poutcome string, y string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';';
  4. 導入數據到數據庫。
    %spark.sql
    
    use db_demo;
    
    load data inpath 'oss://databricks-dbr/db_demo/bank/bank.csv' overwrite into table db_bank_demo;
    
    describe db_bank_demo;

    導入成功后,查看表信息如下所示。

    table

刪除單元格

  1. DataInsight Notebook頁面,單擊單元格右上角的set圖標。
  2. 選擇Remove。
    remove
  3. 在彈出框中單擊OK。
    即可刪除當前單元格。

運行Note

DataInsight Notebook頁面,單擊單元格右上角的run圖標,即可在Notebook內運行作業。

查看可視化運行結果

運行完Note后,在當前單元格中,可單擊圖形來查看運行結果。Notebook內置了多種圖形來可視化Spark的DataFrame:Table、Bar Chart、Pie Chart、Area Chart、Line Chart、Scatter Chart,并且您可以單擊settings對各種圖形進行配置。

set

查看作業詳情

  1. DataInsight Notebook頁面,單擊單元格右上角的SPARK JOB。
  2. 選擇待查看的作業。
    即可跳轉至該作業的Spark UI,查看作業執行詳情。

修改Interpreter模式

默認情況下Spark Interpreter的綁定模式是Shared模式,即所有的Note都是共享同一個Spark App。如果是多用戶場景的話,建議設置成Isolated Per Note,這樣每個Note都有自己獨立的Spark App,互相不會有影響。

  1. DataInsight Notebook頁面,單擊右上角的set圖標。
  2. Settings區域,單擊Interpreter。
    setting
  3. spark區域,單擊edit圖標,按截圖設置以下參數。
    spark
  4. 單擊Save。
  5. 在彈出框中單擊OK。

配置Interpreter

支持以下兩種方式配置Interpreter:

  • 配置全局的Interpreter。
    1. DataInsight Notebook頁面,單擊右上角的set圖標。
    2. Settings區域,單擊Interpreter
    3. spark區域,單擊edit,修改相關的參數。
    4. 單擊Save
    5. 在彈出框中單擊OK。
  • 配置單個Note的Interpreter。

    通過%spark.conf來對每個Note的Spark Interpreter進行定制化,但前提是把Interpreter設置成isolated per note。

    DataInsight Notebook頁面的%spark.conf區域,可修改相關的參數。

    %spark.conf
    SPARK_HOME <PATH_TO_SPARK_HOME>
    
    #set driver memory to 8g
    spark.driver.memory 8g
    
    #set executor number to be 6
    spark.executor.instances 6
    #set executor memory 4g
    spark.executor.memory 4g

問題反饋

您在使用阿里云Databricks數據洞察過程中有任何疑問,歡迎用釘釘掃描下面的二維碼加入釘釘群進行反饋。

Databricks數據洞察產品群