混淆矩陣
混淆矩陣(Confusion Matrix)適用于監(jiān)督學(xué)習(xí),與無監(jiān)督學(xué)習(xí)中的匹配矩陣對(duì)應(yīng)。在精度評(píng)價(jià)中,混淆矩陣主要用于比較分類結(jié)果和實(shí)際測(cè)量值,可以將分類結(jié)果的精度顯示在一個(gè)矩陣中。本文為您介紹混淆矩陣組件的配置方法。
使用限制
支持的計(jì)算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置混淆矩陣組件參數(shù)。
方式一:可視化方式
在Designer工作流頁面配置組件參數(shù)。
參數(shù) | 描述 |
原數(shù)據(jù)的標(biāo)簽列列名 | 支持?jǐn)?shù)值類型。 |
預(yù)測(cè)結(jié)果的標(biāo)簽列列名 | 如果未配置閾值,則該參數(shù)必選。 |
閾值 | 大于該參數(shù)值的樣本為正樣本。 |
預(yù)測(cè)結(jié)果的詳細(xì)列列名 | 與預(yù)測(cè)結(jié)果的標(biāo)簽列列名不能共存。如果已配置閾值,則該參數(shù)必選。 |
正樣本的標(biāo)簽值 | 如果已配置閾值,則該參數(shù)必選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見SQL腳本。
未指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionColName=prediction_result;
指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionDetailColName=prediction_detail -Dthreshold=0.8 -DgoodValue=N;
參數(shù) | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表的名稱,即預(yù)測(cè)輸出表。 | 無 |
inputTablePartition | 否 | 輸入表的分區(qū)。 | 全表 |
outputTableName | 是 | 輸出表的名稱,用于存儲(chǔ)混淆矩陣。 | 無 |
labelColName | 是 | 原始標(biāo)簽列的名稱。 | 無 |
predictionColName | 否 | 預(yù)測(cè)結(jié)果列的名稱。如果未配置threshold,則該參數(shù)必選。 | 無 |
predictionDetailColName | 否 | 預(yù)測(cè)結(jié)果詳細(xì)列的名稱。如果已配置threshold,則該參數(shù)必選。 | 無 |
threshold | 否 | 劃分正樣本的閾值。 | 0.5 |
goodValue | 否 | 二分類時(shí),指定訓(xùn)練系數(shù)對(duì)應(yīng)的標(biāo)簽值。如果已配置threshold,則該參數(shù)必選。 | 無 |
coreNum | 否 | 計(jì)算的核心數(shù)量。 | 系統(tǒng)自動(dòng)分配 |
memSizePerCore | 否 | 每個(gè)核心的內(nèi)存,單位為MB。 | 系統(tǒng)自動(dòng)分配 |
lifecycle | 否 | 輸出表的生命周期。 | 無 |
示例
用MaxCompute客戶端創(chuàng)建表test_data,其中列字段和數(shù)據(jù)類型為
id bigint、label string、prediction_result string
。關(guān)于MaxCompute客戶端的安裝及配置請(qǐng)參見使用本地客戶端(odpscmd)連接,如何創(chuàng)建表,請(qǐng)參見創(chuàng)建表。將如下測(cè)試數(shù)據(jù)導(dǎo)入到表test_data中。如何導(dǎo)入數(shù)據(jù),請(qǐng)參見導(dǎo)入數(shù)據(jù)。
id
label
prediction_result
0
A
A
1
A
B
2
A
A
3
A
A
4
B
B
5
B
B
6
B
A
7
B
B
8
B
A
9
A
A
構(gòu)建如下工作流,并運(yùn)行組件,詳情請(qǐng)參見算法建模。
在Designer左側(cè)組件列表中,分別搜索讀數(shù)據(jù)表組件和混淆矩陣組件,并拖入右側(cè)畫布中。
參照上圖,通過連線的方式,將各個(gè)節(jié)點(diǎn)組織構(gòu)建成為一個(gè)有上下游關(guān)系的工作流。
配置組件參數(shù)。
在畫布中單擊讀數(shù)據(jù)表-1組件,在右側(cè)表選擇頁簽,配置表名為test_data。
在畫布中單擊混淆矩陣-1組件,在右側(cè)配置如下表中的參數(shù),其余參數(shù)使用默認(rèn)值。
參數(shù)
描述
原數(shù)據(jù)的標(biāo)簽列列名
選擇label列。
預(yù)測(cè)結(jié)果的標(biāo)簽列列名
輸入prediction_result。
參數(shù)配置完成后,單擊運(yùn)行按鈕,運(yùn)行工作流。
工作流運(yùn)行成功后,右鍵單擊混淆矩陣-1組件,在快捷菜單,選擇可視化分析,查看混淆矩陣組件的輸出結(jié)果。
單擊混淆矩陣頁簽,查看輸出的混淆矩陣。
單擊統(tǒng)計(jì)信息頁簽,查看模型統(tǒng)計(jì)信息。
相關(guān)文檔
關(guān)于Designer組件更詳細(xì)的內(nèi)容介紹,請(qǐng)參見Designer概述。
Designer預(yù)置了多種算法組件,你可以根據(jù)不同的使用場(chǎng)景選擇合適的組件進(jìn)行數(shù)據(jù)處理,詳情請(qǐng)參見組件參考:所有組件匯總。