DataWorks匯聚了豐富的官方真實數據(敏感數據已脫敏),每份數據均提供了具體業務場景的查詢SQL,您可選擇感興趣的公共數據集執行示例SQL,分析結果可生成可視化圖表及報告,快速體驗DataWorks產品。
公開數據集列表
類型 | 數據集 | 數據來源及說明 | 數據類型 |
數字商業 | 本數據集來源天池阿里移動推薦算法挑戰賽,基于阿里巴巴100萬條脫敏的商品數據,可以基于各類商品、操作、時間等字段,體驗阿里云大數據分析能力。 | 靜態數據 | |
本數據集基于淘寶展示廣告點擊數據,隨機抽樣了114萬用戶8天內的廣告展示/點擊日志(2600萬條記錄),具體字段定義請查看表詳情。 | 靜態數據 | ||
本數據集包含了2017年11月25日至2017年12月3日之間,約100萬脫敏用戶隨機行為(行為包括點擊、購買、加購、喜歡),其中用戶數量987,994,商品數量4,162,024,所有行為數量100,150,807。 | 靜態數據 | ||
生活服務 | 本數據集來源于杭州文化和旅游數據在線開放平臺(數據日期更新至2023.07.18),包含每日杭州市各區縣的消費人數、消費金額和酒店入住率等旅游相關指標,可以在出游場景中快速分析各區縣的出行情況和消費趨勢等。 | 動態數據 | |
本數據集來自天池“阿里音樂流行趨勢預測” 挑戰賽,由清華大學和阿里云聯合提供。以阿里音樂用戶的歷史播放數據為基礎,通過對阿里音樂平臺上每個階段藝人的試聽量進行分析,預測潮流趨勢。 | 靜態數據 | ||
本數據集包含了2010年至2022年間,全球各國家和地區的電動車和充電樁的統計情況,并且覆蓋了每年的電動車銷售數量、充電樁數量、電動車總電量需求等指標,可以對全球的電動車需求和使用情況進行統計分析;同時可以參考歷史數據對未來電動車需求進行展望和預測。 | 靜態數據 | ||
本數據集包含了2003年至2022年間,中國內地(不包含港、澳、臺)各省份的年度生產總值數據,可以通過省份名稱、年份來查詢和探索各地區的人均地區生產總值、第一產業增加值、工業增加值、批發和零售業增加值等指標變化情況。 | 靜態數據 | ||
本數據集是飛豬平臺用戶脫敏行為數據,其中包括用戶的基本屬性和商品基本屬性的脫敏信息。可以從用戶和用戶群體的行為數據中對當前用戶的興趣進行分析、預測、推薦。 | 靜態數據 | ||
本數據集包含了從1951年至2022年歷屆亞運會中各國家和地區獲得獎牌的情況。 | 動態數據 | ||
科技教育 | 大量開發人員在GitHub上進行開源項目的開發工作,并在項目的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等。 | 動態數據 | |
本數據集來源于QS Top Universities官網,收錄了2022-2024年的世界大學排名情況,每所院校均包含總體評分、學術聲譽、國際學生比例等可量化指標,可以分析目標院校在不同評分維度的變化趨勢或排名情況等。 | 動態數據 | ||
本數據集包含了2003年至2021年間,中國內地(不包含港、澳、臺)各省份的三大類專利申請和授權數據,可以通過省份名稱、年份來查詢和探索各地區的發明專利、實用新型專利、外觀設計專利的申請和授權數量的變化趨勢。 | 動態數據 |
前提條件
已開通DataWorks,并創建數據源。
說明公開數據集支持通過MaxCompute、Hologres和EMR Spark進行分析,創建其中任意一個數據源即可。
DataWorks綁定的Serverless資源組與MaxCompute、Hologres或EMR Spark數據源之間的網絡連通性正常,詳情可參見網絡連通。
體驗數據集
登錄DataWorks控制臺。點擊左側導航欄的 ,進入公共數據集頁面。
本文以阿里電商數據集為例,單擊右側的開始分析,選擇已創建的數據源,如MaxCompute。
DataWorks將自動進入數據分析模塊,并自動填寫查詢SQL,在右上角切換已綁定的MaxCompute數據源后,再單擊運行。
在查詢結果中查看圖表結果。
您還可以體驗數據分析模塊的更多功能,如增強分析、數據洞察等,具體請參見數據分析概述。
分享數據集
您可以在公開數據集頁面,通過釘釘將數據集分享給其他用戶。
后續操作
您可在導入目標公開數據集至DataWorks數據分析模塊后,在數據分析模塊基于公開數據集創建數據卡片和數據報告,并將報告一鍵分享給您的朋友。具體操作,請參見:增強分析(卡片和報告)。
相關參考
使用公開數據集的更多詳細步驟,請參見大數據AI公共數據集分析。