De nombreux algorithmes de clustering sont disponibles. Un algorithme populaire est le K-means où, basé sur un nombre donné de clusters, l'algorithme itère pour trouver les meilleurs clusters pour les objets.Quelle méthode utilisez-vous pour sélectionner le nombre optimal de clusters dans k-means et EM?
Quelle méthode utilisez-vous pour déterminer le nombre de clusters dans les données du clustering k-means?
Est-ce qu'un paquet disponible dans R contient la méthode V-fold cross-validation
pour déterminer le bon nombre de clusters?
Une autre approche bien utilisée est l'algorithme de maximisation des attentes (EM) qui assigne une distribution de probabilité à chaque instance qui indique la probabilité qu'elle appartienne à chacun des clusters.
Cet algorithme est-il implémenté dans R?
Si tel est le cas, at-il la possibilité de sélectionner automatiquement le nombre optimal de clusters par validation croisée?
Préférez-vous plutôt une autre méthode de clustering?
J'ai délibérément omis le clustering hiérarchique car hclust est une méthode plutôt gourmande en mémoire, qui ne convient pas aux grands jeux de données dans lesquels je suis surtout intéressé. –
S'il vous plaît définir ce que vous entendez par "optimal" – hadley
Grande question @Svante, j'ai beaucoup réfléchi à ce sujet. J'ai même l'intention d'écrire un paquet avec plusieurs algorithmes pour un nombre optimal de clusters (méthodes hclust seulement). @hadley, j'ai connu: indice C-H (Calinsky & Harabasz), indice C, Goodman-Kruskal gamma coef. et il existe un moyen de "choisir une solution de cluster optimale" en utilisant le test F. Voici une référence: Miligan, G.W. & Cooper, M.C. (1985). Un examen des procédures pour déterminer le nombre de grappes dans un ensemble de données, Psychometrika, 50, 159-179 Bien que je suppose que vous préférez la décision "graphique" sur la solution optimale ... – aL3xa