本文為您介紹Designer提供的增加序號列組件。您可以在數據表的第一列追加ID列。
背景信息
支持1000000000*1023的算法規模。
組件配置
您可以使用以下任意一種方式,配置增加序號列組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
參數設置 | 默認全選 | 默認全選,多余列不影響預測結果。 |
序列號 | 默認為append_id。 | |
執行調優 | 計算核心數 | 核心數量。 |
每個核內存數 | 單個核心使用的內存數,單位為MB,取值范圍為(1, 65536)。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
參數名稱 | 是否必選 | 參數描述 | 默認值 |
inputTableName | 是 | 輸入表的表名。 | 無 |
selectedColNames | 否 | 輸入表中,參與訓練的列。列名以英文逗號(,)分隔,支持INT和DOUBLE類型。如果輸入為稀疏格式,則支持STRING類型的列。 | 所有列 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支持以下格式:
說明 如果指定多個分區,則使用英文逗號(,)分隔。 | 所有分區 |
outputTableName | 是 | 輸出結果表。 | 無 |
IDColName | 否 | ID列列名。 | append_id |
lifecycle | 否 | 輸出表生命周期。 | 無 |
coreNum | 否 | 核心數量。 | 系統自動分配 |
memSizePerCore | 否 | 單個核心使用的內存數,單位為MB,取值范圍為(1, 65536)。 | 系統自動分配 |
示例
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
數據生成
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
輸出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true