二分類評(píng)估
二分類評(píng)估通過計(jì)算AUC、KS及F1 Score指標(biāo),輸出KS曲線、PR曲線、ROC曲線、LIFT Chart及Gain Chart。
組件配置
您可以使用以下任意一種方式,配置二分類評(píng)估組件參數(shù)。
方式一:可視化方式
在Designer工作流頁(yè)面配置組件參數(shù)。
參數(shù) | 描述 |
原始標(biāo)簽列列名 | 目標(biāo)列的名稱。 |
分?jǐn)?shù)列列名 | 預(yù)測(cè)分?jǐn)?shù)列,通常為prediction_score列。 |
正樣本的標(biāo)簽值 | 正樣本的分類。 |
計(jì)算KS、PR等指標(biāo)時(shí)按等頻分成多少個(gè)桶 | 將數(shù)據(jù)按照等頻劃分為桶的數(shù)量。 |
分組列列名 | 分組ID列。對(duì)各分組的數(shù)據(jù)分別計(jì)算評(píng)估指標(biāo),適用于分組評(píng)估場(chǎng)景。 |
高級(jí)選項(xiàng) | 如果選中高級(jí)選項(xiàng)復(fù)選框,則預(yù)測(cè)結(jié)果詳細(xì)列、預(yù)測(cè)目標(biāo)與評(píng)估目標(biāo)是否一致及保存性能指標(biāo)參數(shù)生效。 |
預(yù)測(cè)結(jié)果詳細(xì)列 | 預(yù)測(cè)結(jié)果詳細(xì)列的名稱。 |
預(yù)測(cè)目標(biāo)與評(píng)估目標(biāo)是否一致 | 例如,在金融場(chǎng)景中,訓(xùn)練程序預(yù)測(cè)壞人的概率,其值越大,表示樣本越壞,相關(guān)指標(biāo)(例如LIFT)評(píng)估的是抓壞率,此時(shí)預(yù)測(cè)目標(biāo)與評(píng)估目標(biāo)一致。在信用評(píng)分場(chǎng)景中,訓(xùn)練程序預(yù)測(cè)好人的概率,其值越大,表示樣本越好,而相關(guān)指標(biāo)評(píng)估的是抓壞率,此時(shí)預(yù)測(cè)目標(biāo)與評(píng)估目標(biāo)不一致。 |
保存性能指標(biāo) | 保存性能指標(biāo)的開關(guān)。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見SQL腳本。
PAI -name=evaluate -project=algo_public
-DoutputMetricTableName=output_metric_table
-DoutputDetailTableName=output_detail_table
-DinputTableName=input_data_table
-DlabelColName=label
-DscoreColName=score
參數(shù) | 是否必選 | 參數(shù)描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入表的分區(qū)。 | 全表 |
labelColName | 是 | 目標(biāo)列的名稱。 | 無 |
scoreColName | 是 | 分?jǐn)?shù)列的名稱。 | 無 |
groupColName | 否 | 分組列的名稱,用于分組評(píng)估場(chǎng)景。 | 無 |
binCount | 否 | 計(jì)算KS及PR等指標(biāo)時(shí),按照等頻將數(shù)據(jù)分成的桶數(shù)量。 | 1000 |
outputMetricTableName | 是 | 輸出的指標(biāo)表,包括AUC、KS及F1 Score指標(biāo)。 | 無 |
outputDetailTableName | 否 | 用于畫圖的詳細(xì)數(shù)據(jù)表。 | 無 |
positiveLabel | 否 | 正樣本的分類。 | 1 |
lifecycle | 否 | 輸出表的生命周期。 | 無 |
coreNum | 否 | 核心數(shù)量。 | 系統(tǒng)自動(dòng)計(jì)算 |
memSizePerCore | 否 | 每個(gè)核心的內(nèi)存。 | 系統(tǒng)自動(dòng)計(jì)算 |