如果您已開通MaxCompute服務,可以通過MaxComputeSQL分析連接查詢公開數據集中的表,以便您快速試用MaxCompute。本文為您介紹公開數據集信息,并指導您如何通過MaxComputeSQL分析連接查詢并分析數據。
簡介
MaxCompute開放的公開數據集類別包括:GitHub公開事件數據、國家統計數據、TPC性能測試數據、數字商業類數據、生活服務類數據、金融股票類數據。所有的數據均存儲在MaxCompute產品的公開項目BIGDATA_PUBLIC_DATASET的不同Schema中。
類別 | 簡介 | 數據集名稱 | Schema名稱 | |
GitHub公開事件數據 | 大量開發人員在GitHub上進行開源項目的開發工作,并在項目的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等。 | GitHub公開事件數據集 | github_events | |
國家統計數據 | 包括世界各國、中國各省的年度GDP數據。 | 國家統計數據集 | national_data | |
TPC性能數據 | TPC-DS | TPC-DS是一個面向決策支持的基準,它對決策支持系統的幾個普遍適用的方面進行建模,包括查詢和數據維護等,使大數據系統等新興技術能夠執行基準測試。 |
|
|
TPC-H | TPC-H是一個面向決策支持的基準,它由一套面向業務的即席查詢和并發數據修改組成,在大數據量下執行高度復雜的查詢,并回答關鍵業務問題。 |
|
| |
TPCx-BB | TPCx-BB Express Benchmark BB(TPCx-BB)是一個大數據基準測試,衡量基于Hadoop的大數據系統的性能。它通過執行30個經常執行的分析查詢來衡量硬件和軟件組件的性能。 |
|
| |
數字商業 | 包括淘寶廣告、淘寶購物、阿里電商等數據。 | 數字商業數據集 | commerce | |
生活服務 | 包括二手房產、影視及票房、手機號碼歸屬、行政及城鄉區劃代碼信息等數據。 | 生活服務數據集 | life_service | |
金融股票 | 股票信息。 | 金融股票數據集 | finance |
聲明
MaxCompute提供的公開數據集數據只能用于產品測試,數據將不做周期更新,且不保障數據準確性,因此請您勿用于正式生產。
MaxCompute公開數據集中的TPC數據生成與分析基于TPC的基準測試,并不能與已發布的TPC基準測試結果相比較,因為通過MaxCompute公開數據集進行的測試并不符合TPC基準測試的所有要求。
MaxCompute提供的TPC性能測試數據源于TPC,你也可以選擇自行生成TPC數據,生成TPC測試數據詳情請參見TPC官方文檔。
注意事項
公開數據集對所有的MaxCompute用戶開放。在使用過程中,您需要注意:
公開數據集的數據均存儲在
BIGDATA_PUBLIC_DATASET
項目中,但所有用戶并未被加入到該項目中,即非項目空間成員。因此需要跨項目訪問數據,在編寫SQL腳本時,必須在表名前指定項目名稱及Schema名稱。同時未開啟租戶級Schema語法開關的用戶需要開啟Session級Schema語法,才能保證命令正常運行,命令示例如下:--開啟Session級Schema語法 set odps.namespace.schema=true; --查詢表dwd_github_events_odps中的100條數據 select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
重要您無需為公開數據集的數據支付存儲費用,但是您需要支付執行查詢語句產生的相應計算費用,費用計算規則請參見計算費用(包年包月)或計算費用(按量付費)。
由于公開數據集需要跨項目訪問,您在DataWorks的數據地圖中無法查找到公開數據集中的表。
由于公開數據集項目支持按Schema存儲,未開啟租戶級別Schema語法的用戶無法在DataWorks數據分析提供的公開數據集中直接查看,但您依舊可以通過我們提供的SQL語句進行查詢。
詳細表信息
公開項目BIGDATA_PUBLIC_DATASET各Schema中的表詳細信息如下。
GitHub公開事件數據
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | github_events |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 | 大量開發人員在GitHub上進行開源項目的開發工作,并在項目的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等,具體事件類型請參見GitHubEvents。 MaxCompute將GH Archive提供的海量公開事件數據進行離線處理并開發,生成以下表:
說明 表中的數據源于GH Archive。 |
更新周期 |
|
查詢表結構 |
|
查詢示例 |
|
更多數據介紹及Query樣例請參見GitHub公開事件數據。 |
國家統計數據
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | national_data |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
說明 annual_gdp_by_province數據源于國家統計局,annual_gdp_by_country數據源于國際貨幣基金組織(IMF)。 |
更新周期 | 提供固定數據,不做更新。 |
查詢表結構 |
|
查詢示例 |
|
TPC-DS數據
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云 |
表名稱與說明 | TPCDS模型模擬一個全國連鎖的大型零售商的銷售系統,其中含有三種銷售渠道:store(實體店)、web(網店)、catalog(電話訂購),每種渠道使用兩張表分別模擬銷售記錄和退貨記錄,同時包含商品信息、促銷信息、用戶信息等維度表,詳情如下:
說明 表中數據源于TPC。 |
更新周期 | 提供固定數據,不做更新。 |
查詢表結構 |
|
查詢示例 |
|
更多不同數據規格的Query樣例文件請參考TPC-DS數據。 更多數據介紹請參見官方 TPC Benchmark DS 標準規范。 |
TPC-H數據
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpch_10g、tpch_100g、tpch_1t、tpch_10t |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、 中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云 |
表名稱與說明 | TPC-H是用來評估在線分析處理的基準程序,主要模擬了一個供應商和采購商之間的交易行為。其中含有訂單信息、商品信息、用戶信息等,詳情如下:
說明 表中數據源于TPC。 |
更新周期 | 提供固定數據,不做更新。 |
查詢表結構 |
|
查詢示例 |
|
更多數據介紹及查詢樣例請參見官方 TPC Benchmark H 標準規范。 |
TPCx-BB數據
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云 |
表名稱與說明 | TPCx-BB是一個大數據基準測試工具,該工具模擬了一個網上零售的場景,包含銷售記錄和退貨記錄,同時包含商品信息和促銷信息等,詳情如下:
說明 表中數據源于TPC。 |
更新周期 | 提供固定數據,不做更新。 |
查詢表結構 |
|
查詢示例 |
|
更多數據介紹及查詢樣例請參見官方TPCx-BB標準規范。 |
數字商業數據集
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | commerce |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
說明 表中數據源于天池實驗室-淘寶展示廣告點擊率預估數據集。 |
更新周期 | 提供固定數據,不再做增量更新。 |
查詢表結構 |
|
查詢示例 |
|
生活服務數據集
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | life_service |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
|
更新周期 |
|
查詢表結構 |
|
查詢示例 |
|
金融股票數據集
項目名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | finance |
可用地域 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
|
更新周期 | 提供固定日期分區的數據,不再做增量更新。 |
查詢表結構 |
|
查詢示例 |
|
使用公開數據集
前提條件
已開通MaxCompute并已創建項目,詳情請參見創建MaxCompute項目。
支持的工具或平臺
操作步驟(以SQL分析為例)
登錄MaxCompute控制臺,新建MaxCompute項目,具體操作請參見創建MaxCompute項目。
在左側導航欄單擊工作區 > SQL分析,在SQL分析頁面左側單擊圖標,打開資源管理器,選擇公共數據集DEMO中的樣例文件。或者新建SQL文件,自行在SQL代碼編輯框中輸入以下SQL示例:
--查看過去20年中國各省GDP變化趨勢。 SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;
單擊頁面右側的運行參數,配置如下參數。
項目:必選項,指定該SQL在哪個項目內執行,因此需要選擇當前賬號有
create instance
權限的項目。計算配額:非必選,即實現作業級別指定Quota。如果要選擇,則需要選擇當前賬號有對應
usage
權限的Quota;如果不選擇,則SQL會在項目配置的默認計算Quota里執行。
單擊運行,在結果頁簽查看運行結果。
對查詢結果進行可視化分析。您可以單擊運行結果的圖標,進行簡單的可視化分析。
原公開數據集項目公開數據集參考已不再維護與更新,若您仍有需求依然可以繼續使用。
相關文檔
MaxCompute數據導出方式介紹詳情,請參見: