回歸模型評估是指通過比較模型的預測結果與真實結果,使用回歸指標(如均方誤差、平均絕對誤差、決定系數等)來量化模型的性能優劣。評估過程中,通常還會生成殘差直方圖等可視化工具,以便分析預測誤差的分布特性,幫助識別模型潛在的改進空間。此過程可確保模型具備良好的預測能力和穩定性。
配置組件
方式一:可視化方式
在Designer工作流頁面添加回歸模型評估組件,并在界面右側配置相關參數:
參數類型 | 參數 | 描述 |
字段設置 | 原回歸值 | 數據集中目標變量的實際觀測值,用于評估回歸模型的預測性能,作為比較的基準。 |
預測回歸值 | 通過回歸模型計算得到的目標變量的估計值。模型根據輸入特征生成這些預測值。 | |
執行調優 | 節點個數 | 節點個數和單節點占用的內存大小配置方法請參見附錄:如何預估資源的使用量。 |
單個節點內存大小 |
方式二:PAI命令方式
使用PAI命令配置回歸模型評估組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見場景4:在SQL腳本組件中執行PAI命令。
PAI -name regression_evaluation -project algo_public
-DinputTableName=input_table
-DyColName=y_col
-DpredictionColName=prediction_col
-DindexOutputTableName=index_output_table
-DresidualOutputTableName=residual_output_table;
參數 | 是否必選 | 默認值 | 描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 全表 | 輸入表中,參與計算的分區。 |
yColName | 是 | 無 | 輸入表中,原始因變量的列名,支持數值類型。 |
predictionColName | 是 | 無 | 預測結果中,因變量的列名,支持數值類型。 |
indexOutputTableName | 是 | 無 | 回歸指標輸出表的名稱。 |
residualOutputTableName | 是 | 無 | 殘差直方圖輸出表的名稱。 |
intervalNum | 否 | 100 | 直方圖區間數量。 |
lifecycle | 否 | 無 | 輸出表的生命周期,取值范圍為正整數。 |
coreNum | 否 | 系統自動設置 | Instance數量,取值范圍為1~9999。 |
memSizePerCore | 否 | 系統自動設置 | 每個核心的內存,取值范圍為1024 MB~64*1024 MB。 |
組件輸出
回歸指標輸出表的結果為JSON格式,包括以下參數:
參數 | 描述 |
SST | 總平方和 |
SSE | 誤差平方和 |
SSR | 回歸平方和 |
R2 | 判定系數 |
R | 多重相關系數 |
MSE | 均方誤差 |
RMSE | 均方根誤差 |
MAE | 平均絕對誤差 |
MAD | 平均絕對偏差 |
MAPE | 平均絕對百分誤差 |
count | 行數 |
yMean | 原始因變量的均值 |
predictionMean | 預測結果的均值 |