您可以使用原始數據和隨機森林模型,計算特征重要性。
組件配置
您可以使用以下任意一種方式,配置隨機森林特征重要性組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 選擇特征列 | 輸入表中,用于訓練的特征列。默認選中除Label外的所有列,為可選項。 |
選擇目標列 | 該參數為必選項。 單擊圖標,在選擇字段對話框中,輸入關鍵字搜索列,選中后單擊確定。 | |
參數設置 | 并行計算核數 | 并行計算的核心數,可選。 |
每個核內存大小 | 每個核的內存大小,單位為MB,可選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
pai -name feature_importance -project algo_public
-DinputTableName=pai_dense_10_10
-DmodelName=xlab_m_random_forests_1_20318_v0
-DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
-DlabelColName=y
-DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-Dlifecycle=28 ;
參數名稱 | 是否必選 | 描述 | 默認值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
outputTableName | 是 | 輸出表的名稱。 | 無 |
labelColName | 是 | 輸入表的標簽列名。 | 無 |
modelName | 是 | 輸入的模型名稱。 | 無 |
featureColNames | 否 | 輸入表選擇的特征列。 | 除Label外的所有列 |
inputTablePartitions | 否 | 輸入表選擇的分區名稱。 | 選擇全表 |
lifecycle | 否 | 輸出表的生命周期。 | 不設置 |
coreNum | 否 | 核心數。 | 自動計算 |
memSizePerCore | 否 | 內存數,單位為MB。 | 自動計算 |
示例
使用SQL語句,生成訓練數據。
drop table if exists pai_dense_10_10; create table if not exists pai_dense_10_10 as select age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y from bank_data limit 10;
構建如下實驗,詳情請參見算法建模。
數據源為pai_dense_10_10,y為隨機森林的標簽列,其它列為特征列。強制轉換列選擇age和campaign,表示將這兩列作為枚舉特征處理,其它使用默認參數。
運行實驗,查看預測結果。
運行完成后,右鍵單擊隨機森林特征重要性組件,選擇查看分析報告,查看結果。
文檔內容是否對您有幫助?