線性模型特征重要性組件用于計算線性模型的特征重要性,包括線性回歸和二分類邏輯回歸,支持稀疏和稠密數據格式。本文為您介紹該組件的配置方法。
使用限制
支持的計算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置線性模型特征重要性組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 選擇特征列 | 輸入表中,用于訓練的特征列。默認選中除標簽列(例如Label)外的所有列,為可選項。 |
選擇目標列 | 該參數為必選項。單擊選擇字段,選擇標簽列。 | |
輸入表數據是否為稀疏格式 | 可選項。 | |
執行調優 | 計算核心數 | 計算的核心數,可選。 |
每個核內存大小 | 每個核的內存大小,單位為MB,可選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name regression_feature_importance -project algo_public
-DmodelName=xlab_m_logisticregressi_20317_v0
-DoutputTableName=pai_temp_2252_20321_1
-DlabelColName=y
-DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
-DenableSparse=false -DinputTableName=pai_dense_10_9;
參數 | 是否必選 | 描述 | 默認值 |
inputTableName | 是 | 輸入表的表名。 | 無 |
outputTableName | 是 | 輸出表的表名。 | 無 |
labelColName | 是 | 輸入表的標簽列名。 | 無 |
modelName | 是 | 輸入的模型名稱。 | 無 |
featureColNames | 否 | 輸入表選擇的特征列。 | 除Label外的所有列 |
inputTablePartitions | 否 | 輸入表選擇的分區名稱。 | 選擇全表 |
enableSparse | 否 | 輸入表是否為稀疏格式。 | false |
itemDelimiter | 否 | 當輸入表數據為稀疏格式時,KV對之間的分隔符。 | 空格 |
kvDelimiter | 否 | 當輸入表數據為稀疏格式時,Key和Value之間的分隔符。 | 半角冒號(:) |
lifecycle | 否 | 輸出表的生命周期。 | 不設置 |
coreNum | 否 | 核心數。 | 自動計算 |
memSizePerCore | 否 | 內存數。 | 自動計算 |
示例
使用SQL語句,生成訓練數據。
create table if not exists pai_dense_10_9 as select age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit from bank_data limit 10;
構建如下工作流,并運行組件,詳情請參見算法建模。
在Designer左側組件列表中,分別搜索讀數據表組件、邏輯回歸多分類組件、線性模型特征重要性組件,并拖入右側畫布中。
參照上圖,通過連線的方式,將各個節點組織構建成為一個有上下游關系的工作流。
配置組件參數。
在畫布中單擊讀數據表-1組件,在右側表選擇頁簽,配置表名為bank_data。
在畫布中單擊邏輯回歸多分類-1組件,在右側字段設置頁簽,選擇訓練特征列為age、campaign、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m和nr_employed。選擇目標列為fixed_deposit。其余參數使用默認值。
在畫布中單擊線性模型特征重要性-1組件,在右側字段設置頁簽,將選擇目標列配置為fixed_deposit。其余參數使用默認值。
參數配置完成后,單擊運行按鈕,運行工作流。
工作流運行成功后,右鍵單擊線性模型特征重要性-1組件,在快捷菜單,選擇
。指標計算公式如下。
列名
公式
weight
abs(w_)
importance
abs(w_j) * STD(f_i)
說明表示特征系數的絕對值 * 訓練數據的標準差。
右鍵單擊線性模型特征重要性-1組件,在快捷菜單,單擊可視化分析,查看可視化分析結果。
相關文檔
關于Designer組件更詳細的內容介紹,請參見Designer概述。
Designer預置了多種算法組件,你可以根據不同的使用場景選擇合適的組件進行數據處理,詳情請參見組件參考:所有組件匯總。