久久国产厕所拍精品盗摄,国产第一区二区在线观看,中文无码在线不卡手机av

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

輸入文檔關鍵字查找

本文介紹如何使用阿里云 Databricks數據洞察 Notebook 進行 PySpark 開發(fā)。

重要

若要使用其他數據源進行數據開發(fā)，需開通相應服務。本示例采用OSS數據源。

步驟一：創(chuàng)建 Databricks數據洞察集群

登錄阿里云Databricks數據洞察控制臺。
創(chuàng)建Databricks 數據洞察集群，詳情參見創(chuàng)建集群。

步驟二：添加依賴庫并安裝

根據開發(fā)需要，添加相應的依賴庫

添加matplotlib庫，本示例使用PyPI方式添加，詳情參見Python庫管理。
單擊安裝按鈕，安裝依賴到開發(fā)集群。
等待安裝完成，可單擊任務按鈕查看。

步驟三：獲取數據并上傳對象存儲 OSS

登錄OSS管理控制臺。
創(chuàng)建Bucket存儲空間，詳情請參見控制臺創(chuàng)建存儲空間。
上傳文件，詳情請參見控制臺上傳文件。

步驟四：數據開發(fā)

Notebook使用，詳情參見使用Notebook。
數據開發(fā)，將以下代碼寫入note文件，如下圖所示。

%pyspark
import matplotlib.pyplot as plt 

data = sc.textFile('oss://xxx/xxx/TEST.txt')

data = data.flatMap(lambda line: line.split(" "))

resultRdd = data.map(lambda word: (word,1)).reduceByKey(lambda a,b:a+b)

result = resultRdd.sortBy(lambda x: x[1], False)

resultColl = resultRdd.collect()

x = result.keys().collect()
y = result.values().collect()
plt.bar(x, y, color="b", label="count")
plt.minorticks_on()
plt.title("WordCount")
plt.xlabel("word")
plt.ylabel("count")
plt.legend()
z.show(plt)

單擊右上角運行按鈕，等待任務結束查看結果

上一篇：Notebook - 航空公司數據分析示例下一篇：機器學習開發(fā)示例

文檔內容是否對您有幫助？