本文為您介紹LightGBM組件。
功能說明
LightGBM組件支持使用lightgbm算法對分類或回歸問題進行建模。lightgbm是一個梯度Boosting框架,使用基于決策樹的學習算法。它可以說是分布式的,高效的,有以下優勢:
更快的訓練效率
低內存使用
更高的準確率
支持并行化學習
可以處理大規模數據
與常見的機器學習算法對比,速度是非常快的。
計算邏輯原理
LightGBM 通過葉分裂(Leaf-wise)策略來生長樹。每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環。同每層分裂(Level-wise)相比,在分裂次數相同的情況下,葉分裂(Leaf-wise)可以降低更多的誤差,得到更好的精度。當樣本量較小的時候,leaf-wise 可能會造成過擬合。 所以,LightGBM 可以利用參數 "最大樹深度"來限制樹的深度并避免過擬合。
參數說明
IN端口
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征變量,用數據的特征變量去對目標變量進行預測。 | 是 | 整數或浮點數 說明 若存在非數值數據,則會置為NaN。 |
|
目標變量 | 配置模型目標變量。 | 是 |
說明 若存在非數值數據,則會拋出異常。 |
|
模型端口
參數名 | 參數描述 | 輸出參數 | 輸出數據類型 |
模型 | 輸出算法訓練后模型存儲的地址。 | 模型地址 | 字符 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
建模類型 | 選擇使用分類模型還是回歸模型進行建模。 | 是 | 分類 |
|
最大樹葉數 | 無 | 否 | 31 | [0,10000] |
最大樹深度 | 各個回歸估計量的最大深度。最大深度限制了樹中節點的數量,<= 0表示沒有限制。 | 否 | -1 | [-1,100] |
學習率 | 無 | 否 | 0.1 | (0,1] |
樹的數量 | 要適應的增強樹的數量。 | 否 | 100 | [1,10000] |
測試集比例 | 測試模型的數據占總輸入數據的比例,用于計算模型的評價指標。 | 是 | 0.2 | [0,1] |
測試集生成方式 | 根據選定方式,選取部分數據作為測試集,剩余部分作為訓練集。
| 是 | 隨機 |
|
特征重要性展示特征數 | 模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。 | 是 | 10 | [1,20] |
其他參數
參數名 | 參數描述 |
模型結果 | 查看模型訓練結果或發布模型。 |