向量聚合組件,可以將多個數值列或者向量,聚合成一個向量。
使用限制
支持的計算引擎為MaxCompute和Flink。
算法簡介
向量聚合組件,將多個數值列或者vector列轉換成一個向量。
可視化配置參數
【輸入樁配置】
輸入樁(從左到右) | 限制數據類型 | 建議上游組件 | 是否必選 |
數據 | 存儲在MaxCompute或者OSS中的結構化數據 | 無 | 是 |
【右側參數表單】
頁簽 | 參數 | 描述 |
字段設置 | 選擇的列名 | 需要合并的列名,可以選擇數值列或向量列。 |
算法保留列名 | 組件輸出結果中需要保留的列。 | |
參數設置 | 輸出結果列列名 | 新生成的向量列的列名。 |
處理無效值的方法 | 取值如下: ERROR(默認值):任務拋異常退出。 SKIP:輸出NULL。 | |
組件多線程線程個數 | 默認1。 | |
執行調優 | 節點個數 | 與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。 |
單個節點內存大小,單位M | 取值范圍為1024 MB~64*1024 MB。 |
【輸出樁說明】
輸出樁(從左到右) | 存儲位置 | 下游建議組件 | 模型類型 |
數據 | 不需要配置 | 無 | 無 |
具體示例
您可以將以下代碼復制到PyAlink腳本組件中,使PyAlink腳本組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = VectorAssemblerBatchOp()\
.setSelectedCols(selectedColNames)\
.setOutputCol("vec")
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()
文檔內容是否對您有幫助?