本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
本文介紹如何使用Databricks 讀寫EMR HDFS文件系統數據。
前提條件
通過主賬號登錄阿里云 Databricks控制臺。
已創建EMR集群,具體參見EMR集群創建
已創建DDI集群,具體請參見DDI集群創建。
創建集群并通過knox賬號訪問Notebook。
接入EMR HDFS數據源
1.查看EMR創建集群信息
2.進入DDI集群選擇數據源,選擇添加數據源
3.查看是否添加成功
4.非HA集群查看HDFS的路徑
警告
此為HDFS的訪問路徑
可通過登錄master節點命令hdfs dfs -ls /
訪問HDFS目錄
5.訪問EMR HDFS 數據源代碼實現
%spark
val path="hdfs://emr-header-1.cluster-202360:9000/user/test/export.csv"
val data = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path)
data.show(5)
6.HA 集群訪問HDSF
警告
DDI打通多個EMR HA集群會有名稱沖突
%spark
val path="hdfs://emr-cluster/user/test"
val data = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path)
data.show(5)
文檔內容是否對您有幫助?