直方圖(多字段)
Designer提供了直方圖組件。直方圖(Histogram)又稱質(zhì)量分布圖,是一種統(tǒng)計報告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,通常橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。
組件配置
您可以使用以下任意一種方式,配置直方圖組件參數(shù)。
方式一:可視化方式
進入Designer工作流頁面,在左側(cè)組件列表中搜索直方圖組件,將其拖入畫布,連接好上游節(jié)點后,單擊直方圖組件配置組件參數(shù)。
頁簽 | 參數(shù) | 描述 |
字段設(shè)置 | 選擇字段 | 選擇需要統(tǒng)計分析的字段(僅支持DOUBLE和BIGINT類型)。最大不超過1024個字段。 |
參數(shù)設(shè)置 | 區(qū)間個數(shù) | 將數(shù)據(jù)分成的區(qū)間數(shù)量。 |
執(zhí)行調(diào)優(yōu) | 計算核心數(shù) | 計算的核心數(shù)(正整數(shù)),默認(rèn)自動選擇。 |
每個核內(nèi)存數(shù) | 每個核心的內(nèi)存(1 MB~65536 MB),默認(rèn)自動選擇。 |
節(jié)點成功執(zhí)行后,您可以右鍵單擊該節(jié)點,選擇可視化分析或查看數(shù)據(jù)查看輸出結(jié)果。
方式二:PAI命令方式
您可以使用SQL腳本組件,輸入如下腳本,通過PAI命令方式配置該組件參數(shù),詳情請參見SQL腳本。
PAI -name histogram -project algo_public
-DinputTableName=maple_histogram_1to20_input
-DoutputTableName=maple_histogram_1to20_output
-DselectedColNames=col0,col1
-DintervalNum=20;
參數(shù)名稱 | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓(xùn)練的分區(qū)。 系統(tǒng)支持以下格式:
說明 指定多個分區(qū)時,分區(qū)之間使用英文逗號(,)分隔。 | 無 |
outputTableName | 是 | 輸出表名稱。 | 無 |
selectedColNames | 是 | 輸入表中需要統(tǒng)計分析的字段(僅支持BIGINT和DOUBLE類型)。 支持選擇多個字段,以逗號分隔。最大不超過1024列。 | 無 |
intervalNum | 否 | 直方圖的區(qū)間個數(shù),即將數(shù)據(jù)分成的區(qū)間數(shù)量。 | 100 |
lifecycle | 否 | 表的生命周期。 | 無 |
coreNum | 否 | 計算的核心數(shù)(正整數(shù),取值范圍[1, 9999])。 | 系統(tǒng)自動選擇 |
memSizePerCore | 否 | 每個核心的內(nèi)存(1 MB~65536 MB)。 | 系統(tǒng)自動選擇 |
示例
使用方式二:PAI命令方式示例如下。
在左側(cè)組件列表中搜索SQL腳本組件,將其拖入畫布中。
連接上游節(jié)點,獲取需要分析的數(shù)據(jù)。本示例輸入數(shù)據(jù)如下。
col0 (BIGINT)
col1 (DOUBLE)
1
1.0
2
2.0
3
3.0
4
4.0
5
5.0
6
6.0
7
7.0
8
8.0
9
9.0
10
10.0
11
11.0
12
12.0
13
13.0
14
14.0
15
15.0
16
16.0
17
17.0
18
18.0
19
19.0
20
20.0
在SQL腳本組件中,通過PAI命令配置該組件參數(shù),本示例輸入腳本如下。
PAI -name histogram -project algo_public --組件默認(rèn)參數(shù),無需修改 -DinputTableName=maple_histogram_1to20_input --輸入表名稱 -DoutputTableName=maple_histogram_1to20_output --輸出表名稱 -DselectedColNames=col0,col1 --輸入表中需要統(tǒng)計的字段 -DintervalNum=20; --直方圖的區(qū)間個數(shù)
右鍵單擊該SQL腳本節(jié)點,選擇執(zhí)行該節(jié)點。
如果上游有未執(zhí)行節(jié)點,請先執(zhí)行上游節(jié)點,以正確讀取待分析的數(shù)據(jù)。
節(jié)點運行成功后,可在輸出表查看結(jié)果。本示例輸出結(jié)果如下。
colname
histogram
col0
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1
col1
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1