使用公開數(shù)據(jù)集進行數(shù)據(jù)查詢、分析和可視化
DataWorks匯聚了豐富的官方真實數(shù)據(jù)(敏感數(shù)據(jù)已脫敏),每份數(shù)據(jù)均提供了具體業(yè)務(wù)場景的查詢SQL,您可選擇感興趣的公共數(shù)據(jù)集執(zhí)行示例SQL,分析結(jié)果可生成可視化圖表及報告,快速體驗DataWorks產(chǎn)品。
公開數(shù)據(jù)集列表
類型 | 數(shù)據(jù)集 | 數(shù)據(jù)來源及說明 | 數(shù)據(jù)類型 |
數(shù)字商業(yè) | 本數(shù)據(jù)集來源天池阿里移動推薦算法挑戰(zhàn)賽,基于阿里巴巴100萬條脫敏的商品數(shù)據(jù),可以基于各類商品、操作、時間等字段,體驗阿里云大數(shù)據(jù)分析能力。 | 靜態(tài)數(shù)據(jù) | |
本數(shù)據(jù)集基于淘寶展示廣告點擊數(shù)據(jù),隨機抽樣了114萬用戶8天內(nèi)的廣告展示/點擊日志(2600萬條記錄),具體字段定義請查看表詳情。 | 靜態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集包含了2017年11月25日至2017年12月3日之間,約100萬脫敏用戶隨機行為(行為包括點擊、購買、加購、喜歡),其中用戶數(shù)量987,994,商品數(shù)量4,162,024,所有行為數(shù)量100,150,807。 | 靜態(tài)數(shù)據(jù) | ||
生活服務(wù) | 本數(shù)據(jù)集來源于杭州文化和旅游數(shù)據(jù)在線開放平臺(數(shù)據(jù)日期更新至2023.07.18),包含每日杭州市各區(qū)縣的消費人數(shù)、消費金額和酒店入住率等旅游相關(guān)指標(biāo),可以在出游場景中快速分析各區(qū)縣的出行情況和消費趨勢等。 | 動態(tài)數(shù)據(jù) | |
本數(shù)據(jù)集來自天池“阿里音樂流行趨勢預(yù)測” 挑戰(zhàn)賽,由清華大學(xué)和阿里云聯(lián)合提供。以阿里音樂用戶的歷史播放數(shù)據(jù)為基礎(chǔ),通過對阿里音樂平臺上每個階段藝人的試聽量進行分析,預(yù)測潮流趨勢。 | 靜態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集包含了2010年至2022年間,全球各國家和地區(qū)的電動車和充電樁的統(tǒng)計情況,并且覆蓋了每年的電動車銷售數(shù)量、充電樁數(shù)量、電動車總電量需求等指標(biāo),可以對全球的電動車需求和使用情況進行統(tǒng)計分析;同時可以參考?xì)v史數(shù)據(jù)對未來電動車需求進行展望和預(yù)測。 | 靜態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集包含了2003年至2022年間,中國內(nèi)地(不包含港、澳、臺)各省份的年度生產(chǎn)總值數(shù)據(jù),可以通過省份名稱、年份來查詢和探索各地區(qū)的人均地區(qū)生產(chǎn)總值、第一產(chǎn)業(yè)增加值、工業(yè)增加值、批發(fā)和零售業(yè)增加值等指標(biāo)變化情況。 | 靜態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集是飛豬平臺用戶脫敏行為數(shù)據(jù),其中包括用戶的基本屬性和商品基本屬性的脫敏信息。可以從用戶和用戶群體的行為數(shù)據(jù)中對當(dāng)前用戶的興趣進行分析、預(yù)測、推薦。 | 靜態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集包含了從1951年至2022年歷屆亞運會中各國家和地區(qū)獲得獎牌的情況。 | 動態(tài)數(shù)據(jù) | ||
科技教育 | 大量開發(fā)人員在GitHub上進行開源項目的開發(fā)工作,并在項目的開發(fā)過程中產(chǎn)生海量事件。GitHub會記錄每次事件的類型及詳情、開發(fā)者、代碼倉庫等信息,并開放其中的公開事件,包括加星標(biāo)、提交代碼等。 | 動態(tài)數(shù)據(jù) | |
本數(shù)據(jù)集來源于QS Top Universities官網(wǎng),收錄了2022-2024年的世界大學(xué)排名情況,每所院校均包含總體評分、學(xué)術(shù)聲譽、國際學(xué)生比例等可量化指標(biāo),可以分析目標(biāo)院校在不同評分維度的變化趨勢或排名情況等。 | 動態(tài)數(shù)據(jù) | ||
本數(shù)據(jù)集包含了2003年至2021年間,中國內(nèi)地(不包含港、澳、臺)各省份的三大類專利申請和授權(quán)數(shù)據(jù),可以通過省份名稱、年份來查詢和探索各地區(qū)的發(fā)明專利、實用新型專利、外觀設(shè)計專利的申請和授權(quán)數(shù)量的變化趨勢。 | 動態(tài)數(shù)據(jù) |
前提條件
已開通DataWorks,并創(chuàng)建數(shù)據(jù)源。
說明公開數(shù)據(jù)集支持通過MaxCompute、Hologres和EMR Spark進行分析,創(chuàng)建其中任意一個數(shù)據(jù)源即可。
DataWorks綁定的Serverless資源組與MaxCompute、Hologres或EMR Spark數(shù)據(jù)源之間的網(wǎng)絡(luò)連通性正常,詳情可參見網(wǎng)絡(luò)連通。
體驗數(shù)據(jù)集
登錄DataWorks控制臺。點擊左側(cè)導(dǎo)航欄的 ,進入公共數(shù)據(jù)集頁面。
本文以阿里電商數(shù)據(jù)集為例,單擊右側(cè)的開始分析,選擇已創(chuàng)建的數(shù)據(jù)源,如MaxCompute。
DataWorks將自動進入數(shù)據(jù)分析模塊,并自動填寫查詢SQL,在右上角切換已綁定的MaxCompute數(shù)據(jù)源后,再單擊運行。
在查詢結(jié)果中查看圖表結(jié)果。
您還可以體驗數(shù)據(jù)分析模塊的更多功能,如增強分析、數(shù)據(jù)洞察等,具體請參見數(shù)據(jù)分析概述。
分享數(shù)據(jù)集
您可以在公開數(shù)據(jù)集頁面,通過釘釘將數(shù)據(jù)集分享給其他用戶。
后續(xù)操作
您可在導(dǎo)入目標(biāo)公開數(shù)據(jù)集至DataWorks數(shù)據(jù)分析模塊后,在數(shù)據(jù)分析模塊基于公開數(shù)據(jù)集創(chuàng)建數(shù)據(jù)卡片和數(shù)據(jù)報告,并將報告一鍵分享給您的朋友。具體操作,請參見:增強分析(卡片和報告)。
相關(guān)參考
使用公開數(shù)據(jù)集的更多詳細(xì)步驟,請參見大數(shù)據(jù)AI公共數(shù)據(jù)集分析。