欧美视频一区二区三区四区,另类专区欧美制服,日韩精品a级无码视频

本文為您介紹K均值聚類組件。

功能說明

K均值聚類是一種矢量量化方法，在數據挖掘的聚類分析中很流行。K均值聚類通過試圖分離 n 個相等方差組的樣本來聚集數據，用最小化或者簇內和平方的標準。該算法需要指定簇的數量，它可以很好地擴展到大量樣本，并已經被廣泛應用于許多不同的領域。

K-means通常分為三個步驟：

1.選擇初始質心，隨機選擇k個樣本作為初始質心。

2.將每個樣本分配到距離其最近的質心，作為一個簇中的數據。

3.通過取分配給每個先前質心的所有樣本的平均值來創建新質心。

計算新舊質心之間的差異，算法重復最后兩個步驟，直到質心不再發生明顯的變化，或者達到預定的迭代次數。

參數名	參數描述	是否必填	輸入數據類型	數據源類型
特征變量	配置模型特征變量。	是	整數或浮點數說明若存在非數值數據，則會拋出異常。	CSV組件。 IGateInOffline組件。平臺上其他數據處理組件。按照平臺規范開發的自定義組件。

參數名	參數描述	輸出數據類型
輸出	聚類完成后輸出具體的聚類類別“label”。	整型

參數名	參數描述	是否必填	參數默認值	參數范圍
簇的數量	要形成的簇的數量以及要生成的質心的數量。	是	8	[2,99999999]
運行次數	k均值算法將在不同質心種子下運行的次數n，最終結果將是n次連續運行的最佳輸出。說明由于K均值聚類是結果受初始值影響的局部最優的迭代算法，因此需要多跑幾次以選擇一個較好的聚類效果，默認是10，一般不需要改。如果你的k值較大，則可以適當增大這個值。	是	10	[1,99999999]
最大迭代次數	單次運行的k均值算法的最大迭代次數。說明如果是凸數據集的話可以不管這個值，如果數據集不是凸的，可能很難收斂，此時可以指定最大的迭代次數讓算法可以及時退出循環。	是	300	[1,99999999]
算法	自動：根據數據值是否是稀疏的，來決定選擇“K-Means”或“elkan K-Means”。建議直接使用此默認選項。 elkan K-Means：數據值稠密可以選擇此算法。 K-Means：數據值稀疏可以選擇此算法。	是	自動	自動 K-Means算法 elkan K-Means算法

參數名	參數描述
模型結果	模型結果展示模型聚類效果以及聚類結果，其中“CH分數（即Calinski-Harabasz指標）”和“輪廓系數”反應聚類效果，值越大，說明聚類效果越好。