本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
讀取純文本文件,文件中的每一行將被解析為DataFrame中的一條記錄,然后根據要求進行轉換,由于文本文件能夠充分利用原生類型(native type)的靈活性,因此很適合作為DataSetAPI的輸入。
前提條件
通過主賬號登錄阿里云 Databricks控制臺。
已創建集群,具體請參見創建集群。
已使用OSS管理控制臺創建非系統目錄存儲空間,詳情請參見創建存儲空間。
創建集群并通過knox賬號訪問Notebook。
警告
首次使用DDI產品創建的Bucket為系統目錄Bucket,不建議存放數據,您需要再創建一個Bucket來讀寫數據。
說明
DDI訪問OSS路徑結構:oss://BucketName/Object
BucketName為您的存儲空間名稱。
Object為上傳到OSS上的文件的訪問路徑。
例:讀取在存儲空間名稱為databricks-demo-hangzhou文件路徑為demo/The_Sorrows_of_Young_Werther.txt的文件
// 從oss地址讀取文本文檔
val dataRDD = sc.textFile("oss://databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt"
實例
case1: 使用文本的方式讀取數據
1,a,10000,11-03-2019,pune
2,b,10020,14-03-2019,pune
3,a,34567,15-03-2019,pune
tyui,a,fgh-03-2019,pune
4,b,10020,14-03-2019,pune
%spark
val path="oss://databricks-data-source/datas/dataTest.csv"
val dtDF = spark.read.textFile(path)
dtDF.show()
文檔內容是否對您有幫助?