日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

公開數據集概述

如果您已開通MaxCompute服務,可以通過MaxComputeSQL分析連接查詢公開數據集中的表,以便您快速試用MaxCompute。本文為您介紹公開數據集信息,并指導您如何通過MaxComputeSQL分析連接查詢并分析數據。

簡介

MaxCompute開放的公開數據集類別包括:GitHub公開事件數據、國家統計數據、TPC性能測試數據、數字商業類數據、生活服務類數據、金融股票類數據。所有的數據均存儲在MaxCompute產品的公開項目BIGDATA_PUBLIC_DATASET的不同Schema中。

類別

簡介

數據集名稱

Schema名稱

GitHub公開事件數據

大量開發人員在GitHub上進行開源項目的開發工作,并在項目的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等。

GitHub公開事件數據集

github_events

國家統計數據

包括世界各國、中國各省的年度GDP數據。

國家統計數據集

national_data

TPC性能數據

TPC-DS

TPC-DS是一個面向決策支持的基準,它對決策支持系統的幾個普遍適用的方面進行建模,包括查詢和數據維護等,使大數據系統等新興技術能夠執行基準測試。

  • TPC-DS 10GB性能測試集

  • TPC-DS 100GB性能測試集

  • TPC-DS 1TB性能測試集

  • TPC-DS 10TB性能測試集

  • tpcds_10g

  • tpcds_100g

  • tpcds_1t

  • tpcds_10t

TPC-H

TPC-H是一個面向決策支持的基準,它由一套面向業務的即席查詢和并發數據修改組成,在大數據量下執行高度復雜的查詢,并回答關鍵業務問題。

  • TPC-H 10GB性能測試集

  • TPC-H 100GB性能測試集

  • TPC-H 1TB性能測試集

  • TPC-H 10TB性能測試集

  • tpch_10g

  • tpch_100g

  • tpch_1t

  • tpch_10t

TPCx-BB

TPCx-BB Express Benchmark BB(TPCx-BB)是一個大數據基準測試,衡量基于Hadoop的大數據系統的性能。它通過執行30個經常執行的分析查詢來衡量硬件和軟件組件的性能。

  • TPCx-BB 10GB性能測試集

  • TPCx-BB 100GB性能測試集

  • TPCx-BB 1TB性能測試集

  • TPCx-BB 10TB性能測試集

  • tpcbb_10g

  • tpcbb_100g

  • tpcbb_1t

  • tpcbb_10t

數字商業

包括淘寶廣告、淘寶購物、阿里電商等數據。

數字商業數據集

commerce

生活服務

包括二手房產、影視及票房、手機號碼歸屬、行政及城鄉區劃代碼信息等數據。

生活服務數據集

life_service

金融股票

股票信息。

金融股票數據集

finance

聲明

  • MaxCompute提供的公開數據集數據只能用于產品測試,數據將不做周期更新,且不保障數據準確性,因此請您勿用于正式生產。

  • MaxCompute公開數據集中的TPC數據生成與分析基于TPC的基準測試,并不能與已發布的TPC基準測試結果相比較,因為通過MaxCompute公開數據集進行的測試并不符合TPC基準測試的所有要求。

  • MaxCompute提供的TPC性能測試數據源于TPC,你也可以選擇自行生成TPC數據,生成TPC測試數據詳情請參見TPC官方文檔

注意事項

公開數據集對所有的MaxCompute用戶開放。在使用過程中,您需要注意:

  • 公開數據集的數據均存儲在BIGDATA_PUBLIC_DATASET項目中,但所有用戶并未被加入到該項目中,即非項目空間成員。因此需要跨項目訪問數據,在編寫SQL腳本時,必須在表名前指定項目名稱及Schema名稱。同時未開啟租戶級Schema語法開關的用戶需要開啟Session級Schema語法,才能保證命令正常運行,命令示例如下:

    --開啟Session級Schema語法
    set odps.namespace.schema=true; 
    --查詢表dwd_github_events_odps中的100條數據
    select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
    重要

    您無需為公開數據集的數據支付存儲費用,但是您需要支付執行查詢語句產生的相應計算費用,費用計算規則請參見計算費用(包年包月)計算費用(按量付費)

  • 由于公開數據集需要跨項目訪問,您在DataWorks的數據地圖中無法查找到公開數據集中的表。

  • 由于公開數據集項目支持按Schema存儲,未開啟租戶級別Schema語法的用戶無法在DataWorks數據分析提供的公開數據集中直接查看,但您依舊可以通過我們提供的SQL語句進行查詢。

詳細表信息

公開項目BIGDATA_PUBLIC_DATASET各Schema中的表詳細信息如下。

GitHub公開事件數據

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

github_events

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

大量開發人員在GitHub上進行開源項目的開發工作,并在項目的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等,具體事件類型請參見GitHubEvents

MaxCompute將GH Archive提供的海量公開事件數據進行離線處理并開發,生成以下表:

  • dwd_github_events_odps(GitHub公開事件數據事實表)

  • dws_overview_by_repo_month(GitHub公開事件月度指標數據聚合表)

說明

表中的數據源于GH Archive

更新周期

  • dwd_github_events_odps:T+1小時更新。

  • dws_overview_by_repo_month:T+1天更新。

查詢表結構

--開啟Session級Schema語法。
set odps.namespace.schema=true; 
--查詢dwd_github_events_odps表結構。如果想查詢其他表,替換schema名稱和表名即可。
desc bigdata_public_dataset.github_events.dwd_github_events_odps;

查詢示例

--開啟Session級Schema語法。
SET odps.namespace.schema=true; 
--統計過去一年星標項目排行(說明:本示例并未考慮用戶取消星標等情況)
SELECT
    repo_id,
    repo_name,
    COUNT(actor_login) total
FROM
    bigdata_public_dataset.github_events.dwd_github_events_odps
WHERE
    ds>=date_add(getdate(), -365)
    AND type = 'WatchEvent'
GROUP BY
    repo_id,
    repo_name
ORDER BY
    total DESC
LIMIT 10;

更多數據介紹及Query樣例請參見GitHub公開事件數據

國家統計數據

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

national_data

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • annual_gdp_by_province(中國年度分省GDP數據)

  • annual_gdp_by_country(世界各國年度GDP數據)

說明

annual_gdp_by_province數據源于國家統計局,annual_gdp_by_country數據源于國際貨幣基金組織(IMF)

更新周期

提供固定數據,不做更新。

查詢表結構

--開啟Session級Schema語法。
set odps.namespace.schema=true; 
--查詢annual_gdp_by_province表結構。如果想查詢其他表,替換schema名稱和表名即可。
desc bigdata_public_dataset.national_data.annual_gdp_by_province;

查詢示例

--開啟Session級Schema語法。
SET odps.namespace.schema=true; 
--查看過去20年北京市GDP變化趨勢。
SELECT
    region,
    gdp,
    year
FROM
    bigdata_public_dataset.national_data.annual_gdp_by_province
WHERE
    region='北京市'
ORDER BY
    year ASC
LIMIT 20;

TPC-DS數據

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云

表名稱與說明

TPCDS模型模擬一個全國連鎖的大型零售商的銷售系統,其中含有三種銷售渠道:store(實體店)、web(網店)、catalog(電話訂購),每種渠道使用兩張表分別模擬銷售記錄和退貨記錄,同時包含商品信息、促銷信息、用戶信息等維度表,詳情如下:

  • call_center(客戶服務中心相關信息)

  • catalog_page(商品目錄相關信息)

  • catalog_returns(電話訂購渠的商品退貨記錄)

  • catalog_sales(電話訂購渠的商品銷售記錄)

  • customer(客戶信息)

  • customer_address(客戶地址信息)

  • customer_demographics(客戶基本信用信息)

  • date_dim(時間維度信息)

  • household_demographics(家庭基本信用信息)

  • income_band(收入信息)

  • inventory(倉儲信息)

  • item(商品信息)

  • promotion(商品促銷信息)

  • reason(用戶退貨原因)

  • ship_mode(商品快遞信息)

  • store(商戶信息)

  • store_returns(門店渠道的商品退貨記錄)

  • store_sales(門店渠道的商品銷售記錄)

  • time_dim(時間維度信息)

  • warehouse(倉庫信息)

  • web_page(商品網頁信息)

  • web_returns(網頁渠道的商品退貨記錄)

  • web_sales(網頁渠道的商品銷售記錄)

  • web_site(商品網站基本信息)

說明

表中數據源于TPC

更新周期

提供固定數據,不做更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢tpcds_10g中的call_center表結構。如果想查詢其他規格數據集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpcds_10g.call_center;

查詢示例

SET odps.namespace.schema=TRUE; 
SELECT dt.d_year ,
       item.i_brand_id brand_id ,
       item.i_brand brand ,
       SUM(ss_sales_price) sum_agg
FROM bigdata_public_dataset.tpcds_10g.date_dim dt ,
     bigdata_public_dataset.tpcds_10g.store_sales ,
     bigdata_public_dataset.tpcds_10g.item
WHERE dt.d_date_sk = store_sales.ss_sold_date_sk
  AND store_sales.ss_item_sk = item.i_item_sk
  AND item.i_manufact_id = 190
  AND dt.d_moy = 12
GROUP BY dt.d_year ,
         item.i_brand ,
         item.i_brand_id
ORDER BY dt.d_year,
         sum_agg DESC,
         brand_id LIMIT 100;

更多不同數據規格的Query樣例文件請參考TPC-DS數據

更多數據介紹請參見官方 TPC Benchmark DS 標準規范

TPC-H數據

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpch_10g、tpch_100g、tpch_1t、tpch_10t

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、 中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云

表名稱與說明

TPC-H是用來評估在線分析處理的基準程序,主要模擬了一個供應商和采購商之間的交易行為。其中含有訂單信息、商品信息、用戶信息等,詳情如下:

  • customer(消費者信息)

  • lineitem(在線商品信息)

  • nation(國家信息)

  • orders(訂單信息)

  • part(零件信息)

  • partsupp(供貨商零件信息)

  • region(地區信息)

  • supplier(供貨商信息)

說明

表中數據源于TPC

更新周期

提供固定數據,不做更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢tpch_10g中的lineitem表結構。如果想查詢其他規格數據集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpch_10g.lineitem;

查詢示例

SET odps.namespace.schema=TRUE; 
SET odps.sql.validate.orderby.limit=FALSE;
SET odps.sql.hive.compatible=TRUE;
SELECT l_returnflag,
       l_linestatus,
       sum(l_quantity) AS sum_qty,
       sum(l_extendedprice) AS sum_base_price,
       sum(l_extendedprice * (1 - l_discount)) AS sum_disc_price,
       sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) AS sum_charge,
       avg(l_quantity) AS avg_qty,
       avg(l_extendedprice) AS avg_price,
       avg(l_discount) AS avg_disc,
       count(*) AS count_order
FROM bigdata_public_dataset.tpch_10g.lineitem
WHERE l_shipdate <= date'1998-12-01' - interval '90' DAY
GROUP BY l_returnflag,
         l_linestatus
ORDER BY l_returnflag,
         l_linestatus;

更多數據介紹及查詢樣例請參見官方 TPC Benchmark H 標準規范

TPCx-BB數據

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印度尼西亞(雅加達)、美國(弗吉尼亞)、美國(硅谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(迪拜)、華東2金融云、華北2金融云(邀測)、華北2阿里政務云1、華南1金融云

表名稱與說明

TPCx-BB是一個大數據基準測試工具,該工具模擬了一個網上零售的場景,包含銷售記錄和退貨記錄,同時包含商品信息和促銷信息等,詳情如下:

  • customer(客戶信息)

  • customer_address(客戶地址信息)

  • customer_demographics(客戶基本信用信息)

  • date_dim(時間維度信息)

  • household_demographics(家庭基本信用信息)

  • income_band(收入信息)

  • inventory(倉儲信息)

  • item(商品信息)

  • item_marketprices(商品的競爭對手價格信息)

  • product_reviews(商品評論信息)

  • promotion(商品促銷信息)

  • reason(用戶退貨原因)

  • ship_mode(商品快遞信息)

  • store(門店信息)

  • store_returns(門店渠道的商品退貨記錄)

  • store_sales(門店渠道的商品銷售記錄)

  • time_dim(時間維度信息)

  • warehouse(倉庫信息)

  • web_clickstreams(網頁點擊信息)

  • web_page(商品網頁信息)

  • web_returns(網頁渠道的商品退貨記錄)

  • web_sales(網頁渠道的商品銷售記錄)

  • web_site(商品網站信息)

說明

表中數據源于TPC

更新周期

提供固定數據,不做更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢tpcxbb_10g中的web_sales表結構。如果想查詢其他規格數據集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpcxbb_10g.web_sales;

查詢示例

SET odps.namespace.schema=TRUE; 
select * FROM bigdata_public_dataset.tpcxbb_10g.web_sales limit 100;

更多數據介紹及查詢樣例請參見官方TPCx-BB標準規范

數字商業數據集

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

commerce

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • adv_raw_sample(從淘寶網站中隨機抽樣100+萬用戶8天內的展示廣告點擊日志,構成原始的樣本骨架)

  • adv_ad_feature(涵蓋了raw_sample表中部分廣告的基本信息)

  • user_profile(涵蓋了raw_sample中全部用戶的基本信息)

  • behavior_log(涵蓋了raw_sample中全部用戶22天內的購物行為(瀏覽、加購、喜歡、購買))

更新周期

提供固定數據,不再做增量更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢behavior_log表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.commerce.behavior_log;

查詢示例

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--通過behavior_log統計22天內銷量最高的三個商品類目ID。
SELECT cate,
       count(btag) sales
FROM behavior_log
WHERE btag='buy'
GROUP BY cate
ORDER BY sales DESC LIMIT 3;

生活服務數據集

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

life_service

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • movie_basic_info(電影基本信息表)

  • movie_box(票房基本信息表)

  • areacode_basic_info_2020(2020年行政及城鄉區劃代碼基本信息表)

  • phoneno_basic_info_2020(2020年手機號歸屬地基本信息表)

更新周期

  • movie_basic_info、movie_box:提供固定日期分區的數據,不再做增量更新。

  • areacode_basic_info_2020、phoneno_basic_info_2020:提供固定數據,不再做增量更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢movie_box表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.life_service.movie_box;

查詢示例

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE;
--查詢2017年1月14日的票房排名前十的電影名稱。
SELECT moviename
FROM bigdata_public_dataset.life_service.movie_box
WHERE ds ='20170114'
ORDER BY rank ASC LIMIT 10;

金融股票數據集

項目名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

finance

可用地域

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • ods_enterprise_share_basic(股票基本信息表)

  • ods_enterprise_share_quarter_cashflow(季度現金流報表)

  • ods_enterprise_share_quarter_growth(季度業務增長數據表)

  • ods_enterprise_share_quarter_operation(季度財務周轉數據表)

  • ods_enterprise_share_quarter_profit(季度利潤表)

  • ods_enterprise_share_quarter_report(季度報表)

  • ods_enterprise_share_trade_h(股票價格表)

更新周期

提供固定日期分區的數據,不再做增量更新。

查詢表結構

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE; 
--查詢ods_enterprise_share_basic表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.finance.ods_enterprise_share_basic;

查詢示例

--開啟Session級Schema語法。
SET odps.namespace.schema=TRUE;
--查詢2017年1月14日的股票基本信息數據。
SELECT *
FROM bigdata_public_dataset.finance.ods_enterprise_share_basic
WHERE ds ='20170114' LIMIT 10;

使用公開數據集

前提條件

已開通MaxCompute并已創建項目,詳情請參見創建MaxCompute項目

支持的工具或平臺

操作步驟(以SQL分析為例)

  1. 登錄MaxCompute控制臺,新建MaxCompute項目,具體操作請參見創建MaxCompute項目

  2. 在左側導航欄單擊工作區 > SQL分析,在SQL分析頁面左側單擊image.png圖標,打開資源管理器,選擇公共數據集DEMO中的樣例文件。或者新建SQL文件,自行在SQL代碼編輯框中輸入以下SQL示例:

    --查看過去20年中國各省GDP變化趨勢。
    SET odps.namespace.schema=true; 
    SET odps.sql.validate.orderby.limit = false;
    SELECT
        region,
        gdp,
        year
    FROM
        bigdata_public_dataset.national_data.annual_gdp_by_province
    ORDER BY
        year ASC;
  3. 單擊頁面右側的運行參數,配置如下參數。

    • 項目:必選項,指定該SQL在哪個項目內執行,因此需要選擇當前賬號有create instance權限的項目。

    • 計算配額:非必選,即實現作業級別指定Quota。如果要選擇,則需要選擇當前賬號有對應usage權限的Quota;如果不選擇,則SQL會在項目配置的默認計算Quota里執行。

  4. 單擊運行,在結果頁簽查看運行結果。image.png

  5. 對查詢結果進行可視化分析。您可以單擊運行結果的image.png圖標,進行簡單的可視化分析。image.png

說明

原公開數據集項目公開數據集參考已不再維護與更新,若您仍有需求依然可以繼續使用。

相關文檔

MaxCompute數據導出方式介紹詳情,請參見:

  • Download:支持將數據或指定Instance的執行結果下載至本地。

  • UNLOAD:支持將數據導出至OSS、Hologres外部存儲。