日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

K均值聚類

本文為您介紹K均值聚類組件。

功能說明

K均值聚類是一種矢量量化方法,在數據挖掘的聚類分析中很流行。K均值聚類通過試圖分離 n 個相等方差組的樣本來聚集數據,用最小化或者簇內和平方的標準。 該算法需要指定簇的數量,它可以很好地擴展到大量樣本,并已經被廣泛應用于許多不同的領域。

計算邏輯原理

K-means通常分為三個步驟:

1.選擇初始質心,隨機選擇k個樣本作為初始質心。

2.將每個樣本分配到距離其最近的質心,作為一個簇中的數據。

3.通過取分配給每個先前質心的所有樣本的平均值來創建新質心。

計算新舊質心之間的差異,算法重復最后兩個步驟,直到質心不再發生明顯的變化,或者達到預定的迭代次數。

參數說明

IN端口-輸入參數

參數名

參數描述

是否必填

輸入數據類型

數據源類型

特征變量

配置模型特征變量。

整數或浮點數

說明

若存在非數值數據,則會拋出異常。

  • CSV組件。

  • IGateInOffline組件。

  • 平臺上其他數據處理組件。

  • 按照平臺規范開發的自定義組件。

OUT端口-輸出參數

參數名

參數描述

輸出數據類型

輸出

聚類完成后輸出具體的聚類類別“label”。

整型

算法參數

參數名

參數描述

是否必填

參數默認值

參數范圍

簇的數量

要形成的簇的數量以及要生成的質心的數量。

8

[2,99999999]

運行次數

k均值算法將在不同質心種子下運行的次數n,最終結果將是n次連續運行的最佳輸出。

說明

由于K均值聚類是結果受初始值影響的局部最優的迭代算法,因此需要多跑幾次以選擇一個較好的聚類效果,默認是10,一般不需要改。如果你的k值較大,則可以適當增大這個值。

10

[1,99999999]

最大迭代次數

單次運行的k均值算法的最大迭代次數。

說明

如果是凸數據集的話可以不管這個值,如果數據集不是凸的,可能很難收斂,此時可以指定最大的迭代次數讓算法可以及時退出循環。

300

[1,99999999]

算法

  • 自動:根據數據值是否是稀疏的,來決定選擇“K-Means”或“elkan K-Means”。建議直接使用此默認選項。

  • elkan K-Means:數據值稠密可以選擇此算法。

  • K-Means:數據值稀疏可以選擇此算法。

自動

  • 自動

  • K-Means算法

  • elkan K-Means算法

其他參數

參數名

參數描述

模型結果

模型結果展示模型聚類效果以及聚類結果,其中“CH分數(即Calinski-Harabasz指標)”和“輪廓系數”反應聚類效果,值越大,說明聚類效果越好。