本文為您介紹Designer提供的箱線圖。
箱形圖是一種用作顯示一組數據分散情況的統計圖。它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。
使用限制
僅原PAI-Studio平臺支持查看該組件的可視化報告。
配置組件
您可以使用以下任意一種方式,配置箱線圖組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 選擇連續類型特征 | 選擇連續類型的特征。 |
選擇枚舉類型特征 | 選擇枚舉類型的特征。 說明 在Designer中僅支持選擇一個字段;在Designer中支持選擇多個字段。 | |
分層樣本采用數 | 分層樣本的采用數。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";
參數名稱 | 是否必選 | 描述 | 默認值 |
inputTable | 是 | 輸入表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支持以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 無 |
outputTable | 是 | 輸出表名,存放箱線圖和采樣的樣本。 | 無 |
continueCols | 是 | 連續類型特征列。 | 無 |
categoryCol | 是 | 枚舉類型特征列。 | 無 |
sampleSize | 否 | 繪制每個特征的擾動情況的樣本采樣數。 | 1000 |
lifecycle | 否 | 輸出表生命周期,單位為:天。 | 28 |
coreNum | 否 | 計算的核心數,取值范圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的內存,取值范圍為1 MB~65536 MB。 | 系統自動分配 |
示例
輸入數據
create table boxplot as select age, y from bank_data limit 100;
age
y
50
0
53
0
28
1
39
0
55
1
30
0
37
0
39
0
36
1
27
0
34
0
41
0
55
1
33
0
26
0
52
0
35
1
27
1
28
0
26
0
41
0
35
0
40
0
32
0
41
0
34
0
49
0
37
0
35
0
38
0
47
0
46
0
27
0
29
1
32
0
36
0
29
0
47
0
44
0
54
0
36
0
42
0
44
0
72
1
48
0
36
0
35
0
43
0
56
0
42
0
31
0
32
0
33
0
31
0
39
0
30
1
24
0
24
0
38
0
26
0
41
0
34
0
30
0
37
0
68
0
31
0
48
0
33
0
59
0
44
0
28
0
50
0
33
0
45
0
40
0
45
0
43
0
54
0
53
0
35
0
30
0
25
0
35
0
54
1
30
0
38
0
35
0
47
0
32
0
27
0
40
1
31
0
42
0
40
0
31
0
57
0
38
1
39
0
37
0
44
0
參數配置
選擇age為連續類型特征,y為枚舉類特征,其他保持默認值。
運行效果
輸出說明
右鍵單擊箱線圖,選擇
,來查看箱線圖的輸出結果。其中:percent_points:表示計算的百分位數。
percent_count:表示按百分位數劃分區間后,各個區間內的數據條數。
sample_list:首先使用分層樣本采用數 ÷ 數據總數計算得出采樣率,根據采樣率在每層樣本中進行采樣。如果采樣率太低,導致每層里的樣本數 × 采樣率小于10,則會重新計算新的采樣率。
箱線圖分布情況如下圖所示。
擾動點圖分布情況如下圖所示。