本文為您介紹XGBoost組件。
功能說明
XGBoost組件支持使用xgboost算法對分類或回歸問題進行建模。XGBoost(Extreme Gradient Boosting),是一種高效的Gradient Boosting算法,集成算法的思路是迭代產生多個弱的學習器,然后將每個學習器的預測結果相加得到最終的預測結果,其在結構化數據處理方面具有較優良的性能。
計算邏輯原理
XGBoost是一棵樹集成模型,它使用的是K(樹的總數為K)個樹的每棵樹對樣本的預測值的和作為該樣本在XGBoost系統中的預測, XGBoost算法思想就是不斷地添加樹,不斷地進行特征分裂來生長一棵樹,每次添加一棵樹,其實是學習一個新函數,去擬合上次預測的殘差。當我們訓練完成得到k棵樹,我們要預測一個樣本的分數,其實就是根據這個樣本的特征,在每棵樹中會落到對應的一個葉子節點,每個葉子節點就對應一個分數,最后只需要將每棵樹對應的分數加起來就是該樣本的預測值。用數據的特征變量去對目標變量進行預測。
參數說明
IN端口
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征變量。用數據的特征變量去對目標變量進行預測。 | 是 | 整數或浮點數 說明 若存在非數值數據,則會置為NaN。 |
|
目標變量 | 配置模型目標變量。 | 是 |
說明 若存在非數值數據,則會拋出異常。 |
|
模型端口
參數名 | 參數描述 | 輸出參數 | 輸出數據類型 |
模型 | 輸出算法訓練后模型存儲的地址。 | 模型地址 | 字符 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
建模類型 | 選擇使用分類模型還是回歸模型進行建模。 | 是 | 回歸 |
|
樹的數量 | 要適應的增強樹的數量。 | 否 | 100 | [1,10000] |
最大樹深度 | 各個回歸估計量的最大深度。 | 否 | 3 | [1,100] |
學習率 | 學習效率。 | 否 | 0.1 | (0,1] |
測試集比例 | 測試模型的數據占總輸入數據的比例,用于計算模型的評價指標。 | 是 | 0.2 | [0,1] |
測試集生成方式 | 根據選定方式,選取部分數據作為測試集,剩余部分作為訓練集。
| 是 | 隨機 |
|
特征重要性展示特征數 | 模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。 | 是 | 10 | [1,20] |
其他參數
參數名 | 參數描述 |
模型結果 | 查看模型訓練結果或發布模型。 |