2011-04-26 5 views
7

Quelqu'un peut-il expliquer ce que signifie réellement la sortie du clustering K-Means dans WEKA?WEKA K-Means Clustering

Par exemple

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0 

Que signifient les chiffres dans les colonnes signifient en fait, il est dit centroïdes de cluster au-dessus de la table, mais comment est-il possible de déterminer ce que les centres de gravité des deux groupes sont?

Si quelqu'un pouvait expliquer ce que signifient les chiffres, je serais très reconnaissant.

Si quelqu'un a des idées sur la façon de compléter une évaluation de la silhouette des clusters trouvés, ce serait aussi génial.

Merci

Répondre

3

La première colonne vous donne le centroïde de la population globale. Les deuxième et troisième colonnes vous donnent les centroïdes pour le cluster 0 et 1, respectivement. Chaque rangée donne la coordonnée centroïde pour la dimension spécifique.

Je crois que vous devez rafraîchir votre K-means. Trouver les centroïdes est une partie essentielle de l'algorithme. Les centroïdes sont le résultat d'une exécution spécifique de l'algorithme et ne sont pas uniques - une analyse différente peut générer un ensemble de centroïdes différent.

Veuillez consulter Michael Abernethy's description of Weka clustering pour plus de détails.

-1

Utilisez la valeur la plus fréquente pour un attribut dans un cluster si l'attribut est nominal. Utilise la valeur moyenne d'un attribut dans un cluster si l'attribut est numérique. Vérifiez this link pour plus de détails.

3

Juste une première étape,

  1. Enregistrer l'intrigue de l'onglet Visualize en tant que fichier arff.

  2. Ouvrez-le avec weka et cliquez sur modifier, vous verrez automatiquement dans quel cluster appartient chaque instance.

  3. Copier ce tableau pour Excel (pour visualiser plus facile)

  4. Utilisez Excel ou Matlab pour trouver silhoutte, la cohésion, la séparation avec les méthodes classiques.

+0

J'ai essayé mais je pouvais seulement voir les données mais pas le numéro de la grappe? – Atul

+0

J'ai essayé d'appliquer le filtre (AddCluster) et cela a fonctionné. – Atul

+0

Ce travail !! Pas besoin d'appliquer le filtre. Il suffit de sauvegarder le fichier depuis le cluster weka visualise le volet en tant que fichier arff et ouvre dans weka. Un nouvel attribut nommé "cluster" est créé. – Supun

0

D'abord, le regroupement est une méthode statistique descriptive. Deuxièmement, l'algorithme Kmeans nécessaire pour entrer le nombre de clusters à l'avance, pour trouver le nombre optimal de clusters, plusieurs méthodes statistiques. Troisièmement, les centroïdes des données numériques sont la moyenne arithmétique des données qui font les grappes.Donc, ces données représentent les données de groupe.