本文為您介紹梯度提升回歸樹組件。
功能說明
梯度提升回歸樹GBRT(Gradient Boosting Regression Tree)是利用樹模型進行回歸的算法模型。梯度提升采用連續的方式構造樹,每棵樹都試圖糾正前一棵樹的錯誤。默認情況下,梯度提升回歸樹中沒有隨機化,而是用到了強預剪枝。梯度提升樹通常使用深度很小的數,這樣模型占用內存更少,預測速度也更快。
計算邏輯原理
GBRT是一種迭代的回歸樹算法,由多棵回歸樹組成,合并許多弱學習器,每棵樹只能對部分數據做出好的預測,所有樹的結論累加起來得到最終結果。因為添加的樹越來越多,可以不斷迭代提高性能,所以GBRT是一種泛化能力較強的算法。
參數說明
IN端口
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征列 | 是 | 整數或浮點數 說明 若存在非數值數據,則會拋出異常。 |
|
目標變量 | 配置模型目標列 | 是 | 整數或浮點數 說明 若存在非數值數據,則會拋出異常。 |
|
模型端口
參數名 | 參數描述 | 輸出參數 | 輸出數據類型 |
模型 | 輸出算法訓練后模型存儲的地址。 | 模型地址 | 字符 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
損失函數 | 損失函數類型。 | 否 | 最小二乘回歸 |
|
學習率 | 模型的學習效率。 | 否 | 0.1 | [0,1] |
樹數量 | 要執行的提升階段數。梯度提升對于過度擬合具有相當強的魯棒性,因此大量提升通常會帶來更好的性能。 | 否 | 10 | [0,10000] |
采樣率 | 用于擬合各個基礎學習者的樣本比例。 | 否 | 1.0 | [0,1] |
特征分裂指標 | 衡量分割質量的功能。 | 否 | 弗里德曼均方誤差 |
|
最小分割樣本下限 | 樹生長過程中早停止的閾值。如果當前節點的不純度高于閾值,節點將分裂。 | 否 | 2 | [1,10000] |
葉節點所含最少樣本數 | 樣本數少于該數據不會分支。 | 否 | 1 | [1,10000] |
節點最小權重系數 | 葉子節點中樣本的最小權重系數。 | 否 | 0 | [0, 99999999] |
最大深度 | 各個回歸估計量的最大深度。最大深度限制了樹中節點的數量。 | 否 | 3 | [1,100] |
分位數 | 如果噪音點較多,可以適當降低這個分位數的值,當損失函數為Huber或分位數回歸時,才需要配置。 | 否 | 0.9 | [0,1] |
測試集比例 | 測試模型的數據占總輸入數據的比例,用于計算模型的評價指標,默認0.2。 | 是 | 0.2 | [0,1] |
測試集生成方式 | 隨機:按比例隨機從輸入數據中截取n條數據作為測試集; 頭部:按比例將輸入數據前n條數據作為測試集; 尾部:按比例將輸入數據后n條數據作為測試集。剩余部分作為訓練集。 | 是 | 隨機 |
|
特征重要性展示特征數 | 模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。 | 是 | 10 | [1,20] |
其他參數
參數名 | 參數描述 |
模型結果 | 可以查看建模成功后的模型評價結果。包含:
|