2010-10-27 5 views
16

Quelqu'un a-t-il essayé d'appliquer un lissage à la métrique d'évaluation avant d'appliquer la méthode L pour déterminer le nombre de grappes k-means dans un ensemble de données? Si oui, a-t-il amélioré les résultats? Ou permettre un nombre inférieur d'essais k-means et donc beaucoup plus grande augmentation de la vitesse? Quel algorithme/méthode de lissage avez-vous utilisé?Utilisation d'un lisseur avec la méthode L pour déterminer le nombre de grappes K-Means

« L-Méthode » est détaillée dans: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan

Ce calcule la métrique d'évaluation pour une gamme de différents chefs de grappes d'essai. Ensuite, pour trouver le genou (qui se produit pour un nombre optimal de grappes), deux droites sont ajustées en utilisant la régression linéaire. Un processus itératif simple est appliqué pour améliorer l'ajustement du genou - il utilise les calculs de métriques d'évaluation existants et ne nécessite aucune répétition des k-means.

Pour la métrique d'évaluation, j'utilise une réciproque d'une version simplifiée de l'indice de Dunns. Simplifié pour la vitesse (en gros mon diamètre et les calculs inter-cluster sont simplifiés). La réciprocité est telle que l'index fonctionne dans la bonne direction (c'est-à-dire que le bas est généralement meilleur). K-means est un algorithme stochastique, donc typiquement il est exécuté plusieurs fois et le meilleur ajustement est choisi. Cela fonctionne plutôt bien, mais lorsque vous faites cela pour les clusters 1..N, le temps s'écoule rapidement. Il est donc dans mon intérêt de contrôler le nombre de courses. Le temps de traitement global peut déterminer si ma mise en œuvre est pratique ou non - je peux abandonner cette fonctionnalité si je ne peux pas l'accélérer.

+0

Thinking à ce sujet, je ne pense pas qu'un lissoir pair (c'est-à-dire courant moyen) aurait un effet notable, parce que la méthode L correspond alors aux lignes utilisant les moindres carrés. Cependant, un lissoir en forme comme un gaussien pourrait se comporter différemment. Je vais essayer de mettre en place un gaussien de taille modérée (la demi-largeur d'environ 6-10 me semble juste). Cela va être un test qualitatif. – winwaed

+0

Je pense que ce sera un bon projet de recherche de taille moyenne. S'il y a des étudiants à la recherche d'un projet, je serais intéressé par la collaboration/le mentorat/la co-création. Un tel projet devrait effectuer des comparaisons quantitatives et être plus général que mon application spécifique. Je vais ajouter la balise project-ideas à la question. – winwaed

+0

J'ai des résultats très approximatifs, non scientifiques et qualitatifs: j'ai essayé les filtres gaussiens de HalfWidthHalfHeight de 5 et 3. Dans les deux cas, cela a augmenté le nombre estimé de clusters, mais l'erreur estimée a baissé avec chaque configuration). Ce sont des données du monde réel, et une augmentation de l'estimation est plausible. Donc, je pense que cela fournit assez pour justifier un mini projet de recherche avec des données contrôlées et dans de meilleures conditions. – winwaed

Répondre

5

J'avais demandé un similar question dans le passé ici sur SO. Ma question était de trouver une façon cohérente de trouver le genou à la forme en L que vous avez décrite. Les courbes en question représentaient le compromis entre la complexité et une mesure d'ajustement du modèle.

Le best solution était de trouver le point avec la distance maximale d selon le chiffre indiqué:

alt text

Note: Je n'ai pas lu le papier lié encore ..

+0

Merci pour la réponse. Cela semble être une approche plus géométrique de l'article, mais je ne serais pas surpris si elle se réduit aux mêmes mathématiques (ou très similaires). Ma question était de savoir s'il était préférable de lisser les données d'abord, et pour une application très spécifique (les points de données sont des mesures appropriées pour des groupes de comptes différents). – winwaed

+0

@Amro: Avez-vous trouvé cette technique plus efficace que la deuxième dérivée? Y a-t-il un nom standard pour cette technique par hasard? – Legend

+0

La méthode L est ce que le papier appelle. Je pense que j'ai trop de bruit pour une dérivée seconde pour trouver avec précision le genou. – winwaed

Questions connexes