日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

梯度提升回歸樹

本文為您介紹梯度提升回歸樹組件。

功能說明

梯度提升回歸樹GBRT(Gradient Boosting Regression Tree)是利用樹模型進行回歸的算法模型。梯度提升采用連續的方式構造樹,每棵樹都試圖糾正前一棵樹的錯誤。默認情況下,梯度提升回歸樹中沒有隨機化,而是用到了強預剪枝。梯度提升樹通常使用深度很小的數,這樣模型占用內存更少,預測速度也更快。

計算邏輯原理

GBRT是一種迭代的回歸樹算法,由多棵回歸樹組成,合并許多弱學習器,每棵樹只能對部分數據做出好的預測,所有樹的結論累加起來得到最終結果。因為添加的樹越來越多,可以不斷迭代提高性能,所以GBRT是一種泛化能力較強的算法。

參數說明

IN端口

參數名

參數描述

是否必填

輸入數據類型

數據源類型

特征變量

配置模型特征列

整數或浮點數

說明

若存在非數值數據,則會拋出異常。

  • CSV組件。

  • IGateInOffline組件。

  • 平臺上其他數據處理組件。

  • 按照平臺規范開發的自定義組件。

目標變量

配置模型目標列

整數或浮點數

說明

若存在非數值數據,則會拋出異常。

  • CSV組件。

  • IGateInOffline組件。

  • 平臺上其他數據處理組件。

  • 按照平臺規范開發的自定義組件。

模型端口

參數名

參數描述

輸出參數

輸出數據類型

模型

輸出算法訓練后模型存儲的地址。

模型地址

字符

算法參數

參數名

參數描述

是否必填

參數默認值

參數范圍

損失函數

損失函數類型。

最小二乘回歸

  • 最小二乘回歸

  • 最小絕對偏差

  • Huber

  • 分位數回歸

學習率

模型的學習效率。

0.1

[0,1]

樹數量

要執行的提升階段數。梯度提升對于過度擬合具有相當強的魯棒性,因此大量提升通常會帶來更好的性能。

10

[0,10000]

采樣率

用于擬合各個基礎學習者的樣本比例。

1.0

[0,1]

特征分裂指標

衡量分割質量的功能。

弗里德曼均方誤差

  • 弗里德曼均方誤差

  • 均方誤差

  • 平均絕對誤差

最小分割樣本下限

樹生長過程中早停止的閾值。如果當前節點的不純度高于閾值,節點將分裂。

2

[1,10000]

葉節點所含最少樣本數

樣本數少于該數據不會分支。

1

[1,10000]

節點最小權重系數

葉子節點中樣本的最小權重系數。

0

[0, 99999999]

最大深度

各個回歸估計量的最大深度。最大深度限制了樹中節點的數量。

3

[1,100]

分位數

如果噪音點較多,可以適當降低這個分位數的值,當損失函數為Huber或分位數回歸時,才需要配置。

0.9

[0,1]

測試集比例

測試模型的數據占總輸入數據的比例,用于計算模型的評價指標,默認0.2。

0.2

[0,1]

測試集生成方式

隨機:按比例隨機從輸入數據中截取n條數據作為測試集;

頭部:按比例將輸入數據前n條數據作為測試集;

尾部:按比例將輸入數據后n條數據作為測試集。剩余部分作為訓練集。

隨機

  • 隨機

  • 頭部

  • 尾部

特征重要性展示特征數

模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。

10

[1,20]

其他參數

參數名

參數描述

模型結果

可以查看建模成功后的模型評價結果。包含:

  • R2(決定系數):該指標解釋回歸模型的方差得分,越接近于1說明自變量越能解釋因變量的方差變化。

  • MSE(均方誤差):該指標計算的是擬合數據和原始數據對應樣本點的誤差的平方和的均值,其值越小說明擬合效果越好。

  • RMSE(均方根誤差):也叫回歸系統的擬合標準差,是MSE的平方根。

  • MAE(平均絕對誤差):用于評估預測結果和真實數據集的接近程度,其值越小說明擬合效果越好。

  • MAPE(平均絕對百分誤差):將MAE的絕對值轉化為相對值,其值越小說明擬合效果越好。

  • MAD(平均誤差):其值越小說明擬合效果越好。