99久久国产综合精品无码,婷婷丁香亚洲综合素,国产日韩精品久久久久

本文介紹如何在Databricks數據洞察實現訪問外部數據源的需求。

背景信息

Databricks數據洞察為了滿足您在計算任務里訪問您在阿里云上已有的數據，支持通過添加外部數據源的方式，打通集群到您自己VPC下的網絡環境。

綁定數據源的本質是打通不同VPC之間的網絡，即將數據源集群所在VPC與目標Databricks數據洞察集群所在VPC的網絡打通。數據源綁定之后，您可以在Notebook或Spark作業里直接訪問對應數據源的數據。

說明對于數據源綁定場景，如果多個數據源共用一個VPC下的交換機，打通其中一個數據源意味著相同交換機下的所有數據源一并打通。因此，只能打通同一Region下的數據源。

說明對于Aliyun EMR HDFS和Aliyun EMR Kafka類型數據源，目前支持各自添加一個集群。Aliyun ECS類型可以多選，如果是自建集群（如Kafka或HDFS)，只需要選擇集群中的一個實例即可。

對于Aliyun EMR HDFS集群，數據源打通之后您可以通過以下方式訪問集群數據。

對于HA集群，默認使用emr-cluster作為hostname。

sc.textFile("hdfs://emr-cluster/tmp/user0/airline_statistic_usa.csv").count()

對于非HA集群，請直接使用EMR HDFS集群namenode的IP訪問。

sc.textFile("hdfs://192.168.xxx.xxx:9000/tmp/user0/airline_statistic_usa.csv").count()

說明對于Aliyun EMR Kafka集群，支持通過IP或者hostename訪問。

解綁數據源本質是將數據源所在VPC與目標Databricks數據洞察集群VPC網絡隔離。如果多個數據源共用一個交換機，解綁操作會使得當前Databricks數據洞察集群無法繼續訪問該交換機下所有數據源集群。