本文為您介紹隨機森林組件。
功能說明
隨機森林組件支持使用隨機森林算法對分類或回歸問題進行建模。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質屬于機器學習的一大分支——集成學習(Ensemble Learning)方法。
計算邏輯原理
隨機森林就是種了很多決策樹,對輸入向量進行分類(回歸)。每一棵樹都是決策樹,要對這個輸入向量進行“投票”。森林就是選擇投票最多的那個樹。
應用舉例:如下圖
參數說明
IN端口
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征列 | 是 | 整數或浮點數 說明 若存在非數值數據,則會拋出異常。 |
|
目標變量 | 配置模型目標列 | 是 |
說明 若存在非數值數據,則會拋出異常。 |
|
模型端口
參數名 | 參數描述 | 輸出參數 | 輸出數據類型 |
模型 | 輸出算法訓練后模型存儲的地址。 | 模型地址 | 字符 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
建模類型 | 選擇使用分類模型還是回歸模型進行建模。 | 是 | 分類 |
|
樹數量 | 要執行的提升階段數。梯度提升對于過度擬合具有相當強的魯棒性,因此大量提升通常會帶來更好的性能 | 否 | 100 | [1, 10000] |
最大深度 | 各個回歸估計量的最大深度。最大深度限制了樹中節點的數量 | 否 | -1 | [-1, 99999999] |
最小分割樣本下限 | 拆分內部節點所需的最少樣本數 | 否 | 2 | [0, 99999999] |
節點最少樣本數 | 在葉節點處需要的最小樣本數,少于該數據不會分支 | 否 | 1 | [1, 99999999] |
節點最小權重系數 | 在所有葉節點處(所有輸入樣本)的權重總和中的最小加權分數 | 否 | 0.0 | [0.0, 99999999] |
測試集比例 | 測試模型的數據占總輸入數據的比例,用于計算模型的評價指標。 | 是 | 0.2 | [0,1] |
測試集生成方式 | 根據選定方式,選取部分數據作為測試集,剩余部分作為訓練集。
| 是 | 隨機 |
|
特征重要性展示特征數 | 模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。 | 是 | 10 | [1,20] |
建模類型:分類
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
特征分裂指標 | 衡量分割質量的功能。 | 否 | 基尼系數 |
|
建模類型:回歸
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
衡量分枝質量指標 | 衡量分枝質量的指標。
| 否 | 均方誤差 |
|
其他參數
參數名 | 參數描述 |
模型結果 | 可以查看建模成功后的模型評價結果或發布模型。 |