2009-10-02 4 views

Répondre

0

Vous devez définir avec précision votre utilisation proposée. Il est très probable que deux méthodes alternatives représenteront un compromis, pour certaines utilisations, l'une sera plus rapide que l'autre, ou l'une donnera plus de précision que l'autre. C'est à peu près le défi avec tous les systèmes informatiques, les références publiées ne peuvent pas être transférées de manière fiable à des applications spécifiques, vous avez très souvent besoin de tester en utilisant vos propres données et habitudes d'utilisation.

Pire, vous constatez souvent que de très petits changements dans les demandes font des changements significatifs dans les performances réelles. J'ai donc peur que vous ayez besoin d'effectuer vos propres analyses et tests pour vos applications particulières.

1

Je pense que vous devriez mieux mettre en évidence votre utilisation (en termes de forme des données, le nombre d'éléments, et les priors, vous pouvez connaître les données avant d'exécuter des techniques de clustering). K-means est très léger et rapide algorithme, mais avec des inconvénients majeurs:

  1. Initialisation: de meilleurs résultats proviennent de centroïdes de cluster au hasard, que l'algorithme lui-même ne contient aucune règle « d'évitement des minima locaux ».
  2. Nombre de clusters: vous devez savoir à l'avance le nombre de clusters que vous allez mapper sur les données
  3. Aucune dépendance sur la "forme" des clusters: K-means vise à équilibrer la taille des partitions dans l'espace , et dans la mise en œuvre de la littérature, il n'y a aucun moyen (presque) de modifier le flux par rapport à d'autres paramètres (statistiques du second ordre, mesures de la compacité, etc.).

D'autre part, SOM (ou KSOM comme vous le nom) est principalement utilisé pour taxonomies ou pour les subdivisions dans des espaces avec des mesures fortes de remise en forme, et peuvent tirer profit des prieurs plus structurés que K-Means. Vous pouvez sélectionner votre propre fonction noyau pour imposer des contraintes sur la forme du réseau et de nombreuses autres pratiques avancées qui méritent d'être décrites plus que quelques lignes. Inconvénient: stage, pas aussi rapide que K-Means, inutilisable dans certains domaines (lorsque la fonction du noyau ne se rapproche pas bien de la dispersion des données locales).

Espérons que cela peut vous aider.

+0

Oui, je sais que le temps d'entraînement de K-means est un peu plus rapide que SOM. SOM prend plus de temps de formation car il nécessite un grand nombre d'itérations pour exécuter l'algorithme. Que diriez-vous de la précision (précision et rappel)? Pouvons-nous utiliser la formule de mesure F dans la recherche d'information pour mesurer la précision de l'entraînement et des tests? F-mesure = 2. (Précision. Rappel)/(Précision + Rappel) –

+0

Ce n'est pas une question de "formation". Vous n'avez pas à traîner K-Means, c'est une technique non supervisée. Au lieu de cela, vous devez choisir vos «a priori» lorsque vous traitez avec K-Means, et les a priori dépendent des données. Plusieurs exemples sont dans la littérature d'algorithmes en deux étapes: le premier pour estimer les a priori (et pour K-Means, aussi, le nombre de clusters) et le second pour réellement faire le calcul. Pour les mesures de ponctualité pour K-Means, vous avez des hypothèses trop faibles dans l'algorithme pour assurer la précision lors de l'itération. Je vous suggère de rechercher des mesures de compacité à faire après chaque étape d'itération. – ZZambia

Questions connexes