本文為您介紹K均值聚類組件。
功能說明
K均值聚類是一種矢量量化方法,在數據挖掘的聚類分析中很流行。K均值聚類通過試圖分離 n 個相等方差組的樣本來聚集數據,用最小化或者簇內和平方的標準。 該算法需要指定簇的數量,它可以很好地擴展到大量樣本,并已經被廣泛應用于許多不同的領域。
計算邏輯原理
K-means通常分為三個步驟:
1.選擇初始質心,隨機選擇k個樣本作為初始質心。
2.將每個樣本分配到距離其最近的質心,作為一個簇中的數據。
3.通過取分配給每個先前質心的所有樣本的平均值來創建新質心。
計算新舊質心之間的差異,算法重復最后兩個步驟,直到質心不再發生明顯的變化,或者達到預定的迭代次數。
參數說明
IN端口-輸入參數
參數名 | 參數描述 | 是否必填 | 輸入數據類型 | 數據源類型 |
特征變量 | 配置模型特征變量。 | 是 | 整數或浮點數 說明 若存在非數值數據,則會拋出異常。 |
|
OUT端口-輸出參數
參數名 | 參數描述 | 輸出數據類型 |
輸出 | 聚類完成后輸出具體的聚類類別“label”。 | 整型 |
算法參數
參數名 | 參數描述 | 是否必填 | 參數默認值 | 參數范圍 |
簇的數量 | 要形成的簇的數量以及要生成的質心的數量。 | 是 | 8 | [2,99999999] |
運行次數 | k均值算法將在不同質心種子下運行的次數n,最終結果將是n次連續運行的最佳輸出。 說明 由于K均值聚類是結果受初始值影響的局部最優的迭代算法,因此需要多跑幾次以選擇一個較好的聚類效果,默認是10,一般不需要改。如果你的k值較大,則可以適當增大這個值。 | 是 | 10 | [1,99999999] |
最大迭代次數 | 單次運行的k均值算法的最大迭代次數。 說明 如果是凸數據集的話可以不管這個值,如果數據集不是凸的,可能很難收斂,此時可以指定最大的迭代次數讓算法可以及時退出循環。 | 是 | 300 | [1,99999999] |
算法 |
| 是 | 自動 |
|
其他參數
參數名 | 參數描述 |
模型結果 | 模型結果展示模型聚類效果以及聚類結果,其中“CH分數(即Calinski-Harabasz指標)”和“輪廓系數”反應聚類效果,值越大,說明聚類效果越好。 |