2010-11-20 5 views
2

Je veux regrouper un grand échantillon de données et pour cela j'utilise k signifie fonction dans MATLAB. Le problème est qu'il retourne une matrice avec toutes les données triées dans le nombre de clusters que je spécifie.Choix du nombre de clusters dans k signifie

Comment puis-je connaître le nombre de clusters optimal?

Je pensais que si j'obtenais le nombre égal d'éléments dans chaque cluster qui serait optimal mais cela n'arrive jamais. Au contraire, il peut continuer à regrouper les données pour n'importe quel nombre que je mets.

S'il vous plaît aider ...

+3

@ user506710: Regardez http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set pour avoir quelques idées. – zellus

Répondre

0

je lis et je pense qu'une réponse à cela pourrait être: - En kmeans nous essayons de répartir les données en fonction des moyens que les données est donc théoriquement notre meilleur jeu de données serait où chaque partition a un nombre égal de données.

J'ai utilisé kmeans ++ qui était un meilleur algorithme que kmeans car il n'initialise pas une valeur aléatoire et ensuite itère sur le nombre de partitions jusqu'à ce que les tailles des partitions soient presque égales. C'était un chiffre approximatif comme disons que pour 3 j'ai eu 2180 729 1219 et pour 4 je recevais 30 2422, 1556 120 donc j'ai choisi 3 comme ma réponse finale ............

Questions connexes