本文為您介紹決策樹組件。
功能說明
決策樹是一種用于分類和回歸的非參數監督學習方法。目標是創建一個模型,通過學習從數據特征推斷出的簡單決策規則來預測目標變量的值。一棵樹可以看作是分段常數近似。決策樹組件支持使用決策樹算法對分類或回歸問題進行建模。
計算邏輯原理
決策樹是一種樹形結構,其中每個內部節點表示一個特征上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類或回歸的結果,本質是一棵由多個判斷節點組成的樹。
參數說明
IN端口
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征列 | 是 | 整數或浮點數 說明 若存在非數值數據,則會拋出異常。 |
|
目標變量 | 配置模型目標列 | 是 |
說明 若存在非數值數據,則會拋出異常。 |
|
模型端口
參數名 | 參數描述 | 輸出參數 | 輸出數據類型 |
模型 | 輸出算法訓練后模型存儲的地址。 | 模型地址 | 字符 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
建模類型 | 選擇使用分類模型還是回歸模型進行建模。 | 是 | 分類 |
|
特征切分策略 | 用于在每個節點上選擇拆分的策略。支持的策略是“最佳”選擇最佳拆分,“隨機”選擇最佳隨機拆分 | 否 | 最佳 |
|
最大深度 | 各個回歸估計量的最大深度。最大深度限制了樹中節點的數量 | 否 | -1 | [-1, 99999999] |
最小分割樣本下限 | 拆分內部節點所需的最少樣本數 | 否 | 2 | [0, 99999999] |
節點最少樣本數 | 少于該數據不會分支 | 否 | 1 | [1, 99999999] |
節點最小權重系數 | 在所有葉節點處(所有輸入樣本)的權重總和中的最小加權分數 | 否 | 0.0 | [0, 99999999] |
測試集比例 | 測試模型的數據占總輸入數據的比例,用于計算模型的評價指標。 | 是 | 0.2 | [0,1] |
測試集生成方式 | 根據選定方式,選取部分數據作為測試集,剩余部分作為訓練集。
| 是 | 隨機 |
|
特征重要性展示特征數 | 模型特征重要性展示時,實際展示的特征個數。只展示最重要的n個特征,默認10。若設置的展示數小于實際特征數,則展示實際特征數。 | 是 | 10 | [1,20] |
建模類型:分類
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
特征分裂指標 | 衡量分割質量的功能。 | 否 | 基尼系數 |
|
建模類型:回歸
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
衡量分枝質量指標 | 衡量分枝質量的指標。
| 否 | 均方誤差 |
|
其他參數
參數名 | 參數描述 |
模型結果 | 可以查看建模成功后的模型評價結果或發布模型。 |