2017-07-24 2 views
-2

J'essaie d'apprendre l'algorithme de clustering k-means en utilisant Matlab. Le problème est que je ne trouve aucun échantillon de données qui facilitera la compréhension de l'algorithme. Cependant, je trouve un exemple sur mathworks qui spécifie le clustering k-means. Mais malheureusement, je ne peux pas le supporter. J'ai essayé de comprendre cet ensemble de données simple que j'ai trouvé sur Stack-overflow. S'il vous plaît, j'ai besoin d'un exemple de base sur le clustering de k-means, qui si je l'ai implémenté sur n'importe quel logiciel (c'est-à-dire matlab), je m'assurerai que je l'applique correctement. Enfin, tous les jeux de données sur le sur l'UCI sont par exemple trop grands et je ne peux pas savoir si ma mise en œuvre est correcte ou non.Comprendre le clustering K-means

Merci à l'avance.

+0

Quel est le problème avec la génération de vos propres données? [Cet exemple] (https://www.mathworks.com/help/stats/kmeans.html#buefthh-2) semble être très utile. Exactement quelle partie des kmeans trouvez-vous déroutant? – beaker

Répondre

0

Nous avons un ensemble de données que tout le monde dirait tomber en trois groupes. Nous savons que le nombre de grappes sera de trois, mais sinon nous voulons que le logiciel fasse le clustering pour nous.

Commencez donc par assigner trois objets aux centres de grappes au hasard. Passez maintenant à travers et attribuez chaque objet à son cluster le plus proche. Le résultat est trois groupes, mais plutôt laids, car il est peu probable que nous ayons frappé les trois centroïdes réels la première fois. Par conséquent, prenez la moyenne de chaque cluster que vous avez généré et passez à nouveau en assignant les objets aux nouveaux centroïdes de cluster. Répétez jusqu'à ce que l'algorithme atteigne la stabilité. Le processus de prise du moyen tend à forcer les suppositions quant aux centres de groupe vers les centres réels.

Cela ne fonctionne cependant que si les données sont réellement regroupées.

0

Je sais que vous utilisez MatLab, mais R dispose d'un certain nombre de jeux de données pour tester les algorithmes de clustering, dont certains sont relativement petits. Le jeu de données ruspini est un bon point de départ. Ces ensembles de données sont disponibles en tant que fichiers csv à partir de github et MatLab devrait être capable de lire les fichiers csv. Il suffit de rechercher cette page pour le groupe de mots.

0

Le très classique iris est correct pour comprendre les k-means.

Peut même arriver à voir certains des problèmes de k-means.