2017-10-11 7 views
0

J'utilise l'algorithme STC (Suffix Tree Clustering) de carrot2 pour regrouper un tas de documents. Par défaut, le nombre maximal de clusters que l'algorithme forme est . Existe-t-il un moyen de décider du nombre de clusters générés?Choix de la taille de la grappe dans Carrot2

Vous trouverez ci-dessous le code d'appel des clusters STC.

ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class); 
List<Cluster> clustersByDomain = byDomainClusters.getClusters(); 
ConsoleFormatter.displayClusters(clustersByDomain); 

Répondre

1

Pour obtenir plus de grappes, essayez d'augmenter les valeurs des paramètres maxClusters et maxBaseClusters. Voici comment pass parameter values in Java code.

Cependant, le faible nombre de clusters peut également être dû aux caractéristiques de vos données d'entrée (trop peu de documents?). Pour vérifier cela, essayez de regrouper vos données avec l'algorithme Lingo.