聚類模型評估
基于原始數(shù)據(jù)和聚類結(jié)果,評估聚類模型的優(yōu)劣性,從而輸出評估指標(biāo)。
使用限制
僅原PAI-Studio平臺支持查看該組件的可視化報告。
背景信息
評估指標(biāo)Calinski-Harabasz又稱VRC(Variance Ratio Criterion),其計算公式如下。
參數(shù) | 描述 |
SSB | 聚類之間的方差,定義如下。其中:
|
SSW | 聚類內(nèi)的方差,定義如下。其中:
|
N | 記錄的總數(shù)量。 |
k | 聚類中心點的數(shù)量。 |
組件配置
您可以使用以下任意一種方式,配置聚類模型評估組件參數(shù)。
方式一:可視化方式
在Designer工作流頁面配置組件參數(shù)。
頁簽 | 參數(shù) | 描述 |
字段設(shè)置 | 參與評估列 | 參與評估的列名,該參數(shù)必須與模型存儲的特征列保持一致。 |
輸入為稀疏格式 | 使用KV格式表示稀疏數(shù)據(jù)。 | |
kv鍵間分隔符 | 默認(rèn)為英文逗號(,)。 | |
kv鍵內(nèi)分隔符 | 默認(rèn)為英文冒號(:)。 | |
執(zhí)行調(diào)優(yōu) | 核心數(shù) | 與參數(shù)每個核的內(nèi)存大小搭配使用,取值范圍為正整數(shù)。 |
每個核的內(nèi)存大小 | 與參數(shù)核心數(shù)搭配使用,單位為MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請參見SQL腳本。
PAI -name cluster_evaluation
-project algo_public
-DinputTableName=pai_cluster_evaluation_test_input
-DselectedColNames=f0,f3
-DmodelName=pai_kmeans_test_model
-DoutputTableName=pai_ft_cluster_evaluation_out;
參數(shù) | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
selectedColNames | 否 | 輸入表中,參與評估的列名,多個列以英文逗號(,)分隔。該參數(shù)必須與模型存儲的特征列保持一致。 | 所有列 |
inputTablePartitions | 否 | 輸入表中,參與訓(xùn)練的分區(qū)。支持以下格式:
說明 如果指定多個分區(qū),則使用英文逗號(,)分隔。 | 全表 |
enableSparse | 否 | 輸入數(shù)據(jù)是否為稀疏格式,取值范圍為{true,false}。 | false |
itemDelimiter | 否 | 稀疏格式KV對之間的分隔符。 | 英文逗號(,) |
kvDelimiter | 否 | 稀疏格式key和value之間的分隔符。 | 英文冒號(;) |
modelName | 是 | 輸入的聚類模型。 | 無 |
outputTableName | 是 | 輸出表。 | 無 |
lifecycle | 否 | 輸出表的生命周期。 | 無 |
示例
使用SQL語句,生成測試數(shù)據(jù)。
create table if not exists pai_cluster_evaluation_test_input as select * from ( select 1 as id, 1 as f0,2 as f3 union all select 2 as id, 1 as f0,3 as f3 union all select 3 as id, 1 as f0,4 as f3 union all select 4 as id, 0 as f0,3 as f3 union all select 5 as id, 0 as f0,4 as f3 )tmp;
使用PAI命令,構(gòu)建聚類模型(以K均值聚類為例)。
PAI -name kmeans -project algo_public -DinputTableName=pai_cluster_evaluation_test_input -DselectedColNames=f0,f3 -DcenterCount=3 -Dloop=10 -Daccuracy=0.00001 -DdistanceType=euclidean -DinitCenterMethod=random -Dseed=1 -DmodelName=pai_kmeans_test_model -DidxTableName=pai_kmeans_test_idx
使用PAI命令,提交聚類模型評估組件的參數(shù)。
PAI -name cluster_evaluation -project algo_public -DinputTableName=pai_cluster_evaluation_test_input -DselectedColNames=f0,f3 -DmodelName=pai_kmeans_test_model -DoutputTableName=pai_ft_cluster_evaluation_out;
查看評估輸出表pai_ft_cluster_evaluation_out,其可視化報告如下圖所示。表中各字段含義如下。
表字段
描述
count
總記錄數(shù)。
centerCount
聚類中心數(shù)。
calinhara
Calinski Harabasz指標(biāo)。