日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

PySpark及Python庫使用

本文介紹如何使用阿里云 Databricks數據洞察 Notebook 進行 PySpark 開發(fā)。

重要

若要使用其他數據源進行數據開發(fā),需開通相應服務。本示例采用OSS數據源。

步驟一:創(chuàng)建 Databricks數據洞察集群

步驟二:添加依賴庫并安裝

根據開發(fā)需要,添加相應的依賴庫

  • 添加matplotlib庫,本示例使用PyPI方式添加,詳情參見Python庫管理

    1602296726221_877079D2-DF8A-48D4-B506-BE5725EFCD84
  • 單擊安裝按鈕,安裝依賴到開發(fā)集群。

    1602297002494_2C861A22-6010-4522-9198-67AE42E35ECC
  • 等待安裝完成,可單擊任務按鈕查看。

    1602297145801_49CB37B0-1322-4DC6-B83B-CE817FDC76A2

步驟三:獲取數據并上傳對象存儲 OSS

步驟四:數據開發(fā)

  • Notebook使用,詳情參見使用Notebook

  • 數據開發(fā),將以下代碼寫入note文件,如下圖所示。

%pyspark
import matplotlib.pyplot as plt 

data = sc.textFile('oss://xxx/xxx/TEST.txt')

data = data.flatMap(lambda line: line.split(" "))

resultRdd = data.map(lambda word: (word,1)).reduceByKey(lambda a,b:a+b)

result = resultRdd.sortBy(lambda x: x[1], False)

resultColl = resultRdd.collect()

x = result.keys().collect()
y = result.values().collect()
plt.bar(x, y, color="b", label="count")
plt.minorticks_on()
plt.title("WordCount")
plt.xlabel("word")
plt.ylabel("count")
plt.legend()
z.show(plt)
  • 單擊右上角運行按鈕,等待任務結束查看結果

    1602297322169_B32652DA-79D0-44E6-B95A-4FFD75519D51