0

Je suis codage ma demande chaque fonction donc je ne suis pas l'aide d'outils qui fait tout pour vousQuand arrêter agglomératif classification hiérarchique - critères d'arrêt

cherche sa solution quand couper ma classification ascendante hiérarchique

Comment dois-je cluster?

Je demande codé en C# 4.5.2

Jusqu'à présent, je suis en utilisant la norme hiérarchique qui utilise Euclidean_Distance pour calculer la distance entre les paires de documents

il utilise également UPGMA pour calculer la distance entre les clusters de décider la fusion qui les

Je codait également rand et F Mesure pour tester mon succès ensemble de données marqué manuellement

Cependant, le problème est lorsque l'arrêt fusion plus grappes

Je suis vraiment mal à comprendre les équations mathématiques sans exemple réel de données ou d'un bien expliqué code pseudo

Il y a des équations mathématiques partout, mais pas d'exemple la vie réelle

Ainsi, la recherche de vos réponses. Par exemple, il est écrit dans de nombreux endroits Bayesian information critère (BIC) est une bonne solution mais je ne peux pas comprendre comment l'appliquer à mon logiciel

J'ai aussi d'autres mesures de distance ou de similarité telles que la similitude cosinus ou Sorensen Dice Distance etc

Il y a tellement de questions sur StackExchange ou Stackoverflow à ce sujet mais toutes les réponses utilisent des outils

comme Matlab ou R ou etc

Répondre

2

Essayez de calculer une mesure de la façon dont chaque regroupement particulier convient - pour exemple, la somme des distances du cent de cluster res, ou la somme des erreurs au carré. Vous devriez constater que cette erreur diminue au fur et à mesure que vous augmentez le nombre de clusters - il est plus facile de s'adapter à plus de clusters et augmente au fur et à mesure que vous diminuez le nombre de clusters.

Dessinez un graphique et chercher un « coude » où l'erreur commence à obtenir de grandes plus rapidement que le nombre de grappes diminue. Vous pouvez alors supposer que le nombre minimum de clusters avant que l'erreur ne commence à augmenter très rapidement soit le nombre réel de clusters dans les données.

Voir par exemple le graphique Cluster analysis in R: determine the optimal number of clusters juste en dessous du texte « Nous pourrions conclure que 4 groupes seraient indiqués par cette méthode: »

+0

ty pour la réponse. Cependant dessiner un graphique signifie technique supervisée. Je dois le faire par programme. aussi dans ma demande je n'ai pas la moindre idée comment puis-je dessiner un graphique de celui-ci: D – MonsterMMORPG

+0

L'article https://www.stat.washington.edu/wxs/Stat592-w2011/Literature/tibshirani-walther-prediction-strength- 2005.pdf décrit un moyen de noter des regroupements avec différents nombres de clusters en utilisant la validation croisée. Une lecture rapide suggère qu'il divise les données pour regrouper les éléments de manière répétée et cherche à voir si les paires de points sont regroupées de manière fiable, ou ne sont pas regroupées de manière fiable. L'espoir est que si vous obtenez le nombre de clusters correct, les regroupements que vous formez avec ce nombre de clusters auront cette propriété. – mcdowella