過濾與映射
更新時間:
過濾與映射組件是一種數(shù)據(jù)預(yù)處理工具,通過用戶定義的過濾表達式篩選出符合條件的記錄,并允許修改輸出字段的名稱。這一功能在數(shù)據(jù)清洗和特征工程階段非常有用,能夠有效地清理數(shù)據(jù)并準(zhǔn)備適合后續(xù)分析和建模的數(shù)據(jù)集。
配置組件
方式一:可視化方式
在Designer工作流頁面添加過濾與映射組件,并在界面右側(cè)配置相關(guān)參數(shù):
參數(shù) | 描述 |
選擇字段 | 選擇要篩選的列,默認(rèn)選擇全部列。支持修改輸出字段名稱。 |
過濾條件 | 通過where條件實現(xiàn)數(shù)據(jù)過濾,與SQL類似,例如age>40。 說明 支持的操作符:=、!=、>、<、>=、<=、like、rlike。 |
方式二:PAI命令方式
使用PAI命令配置過濾與映射組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見場景4:在SQL腳本組件中執(zhí)行PAI命令。
PAI -name Filter
-project algo_public
-DoutTableName="test_9"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition"
-Dfilter="age>=40";
參數(shù) | 是否必選 | 參數(shù)描述 |
outputTableName | 是 | 輸出表的名稱。 |
inputPartitions | 否 | 訓(xùn)練輸入表分區(qū)。輸入表對應(yīng)的輸入分區(qū),選中全表則為None。 |
inputTableName | 是 | 輸入表的名稱。 |
filter | 否 | 通過where條件實現(xiàn)數(shù)據(jù)過濾,與SQL類似,例如age>40。 |
文檔內(nèi)容是否對您有幫助?