本文介紹如何在Databricks數據洞察實現訪問外部數據源的需求。

背景信息

Databricks數據洞察為了滿足您在計算任務里訪問您在阿里云上已有的數據,支持通過添加外部數據源的方式,打通集群到您自己VPC下的網絡環境。

綁定數據源

綁定數據源的本質是打通不同VPC之間的網絡,即將數據源集群所在VPC與目標Databricks數據洞察集群所在VPC的網絡打通。數據源綁定之后,您可以在Notebook或Spark作業里直接訪問對應數據源的數據。

說明 對于數據源綁定場景,如果多個數據源共用一個VPC下的交換機,打通其中一個數據源意味著相同交換機下的所有數據源一并打通。因此,只能打通同一Region下的數據源。
  1. 在Databricks數據洞察控制臺,進入集群詳情頁面。
  2. 點擊詳情頁面數據源標簽,在添加數據源彈窗選擇要添加的數據源類型。
  3. 在所選類型的數據源列表里勾選希望綁定的數據源類型,如果是EMR集群或ECS實例可以直接選擇對應類型;更通用的方式請選擇通用網絡,自助選擇要打通的網絡和安全組。
  4. 建議補充數據源描述信息,便于辨識已綁定數據源實例。
  5. 點擊下一步,確認安全組和交換機信息
說明 對于Aliyun EMR HDFS和Aliyun EMR Kafka類型數據源,目前支持各自添加一個集群 。Aliyun ECS類型可以多選,如果是自建集群(如Kafka或HDFS),只需要選擇集群中的一個實例即可。

數據源訪問說明

對于Aliyun EMR HDFS集群,數據源打通之后您可以通過以下方式訪問集群數據。

對于HA集群,默認使用emr-cluster作為hostname。
sc.textFile("hdfs://emr-cluster/tmp/user0/airline_statistic_usa.csv").count()

對于非HA集群,請直接使用EMR HDFS集群namenode的IP訪問。

sc.textFile("hdfs://192.168.xxx.xxx:9000/tmp/user0/airline_statistic_usa.csv").count()
說明 對于Aliyun EMR Kafka集群,支持通過IP或者hostename訪問。

解綁數據源

解綁數據源本質是將數據源所在VPC與目標Databricks數據洞察集群VPC網絡隔離。如果多個數據源共用一個交換機,解綁操作會使得當前Databricks數據洞察集群無法繼續訪問該交換機下所有數據源集群。

  1. 在Databricks數據洞察控制臺,進入集群詳情頁面。
  2. 點擊詳情頁面數據源標簽。
  3. 在已綁定數據源列表里選擇要解綁的交換機,點擊解綁即可。