2012-07-25 3 views
0

J'ai utilisé Mahout pour les documents de texte en cluster k-means en utilisant les entrées d'index XML et SOLR. Le regroupement semble fonctionner, et des documents similaires sont en effet mis dans le même cluster k-means, ce qui est génial. Cependant, chaque fois que j'affiche la sortie graphml en utilisant ClusterDump (--outputFormat GRAPH_ML), j'obtiens un graphique montrant tous les clusters, mais avec chaque élément affiché autour de la circonférence de son groupe parent, ce qui signifie que chaque élément a approximativement le même rayon du centroïde. Je m'attendais à ce que les éléments soient dispersés à travers le groupe en fonction de leur similarité les uns avec les autres (comme dans les exemples de Mahout)Mahout ClusterDump - résultats bizarres lors de l'affichage de la sortie graphml

Est-ce que quelqu'un a vu quelque chose de similaire avec ses grappes Mahout k-means? J'ai essayé d'aller au fond des choses moi-même, mais tout conseil ou suggestion serait d'une aide précieuse.

Avec merci beaucoup,

P Morris

Répondre

0

S'il vous plaît pouvez-vous expliquer comment vous réussissez à regrouper solr entrée d'index avec cornac et KMeans algo?

BTW ma sortie (clusters_dump) lorsque i clusteriser fichier .txt ressemble à:

CL-0 {n = 0 c = [0: 1.000, 1: 1,000, 2: 3,162, 3: 1,000 4: 4.796, 6: 1.000, 7: 1.000, 8: 1.000, 9: 1.000, 10: 1.000, 11: 1.000, 12: 4.690, 14: 1.000, 15: 11.446, 16: 4.359] r = [] CL-1 {n = 0 c = [0: 1,000, 1: 1,000, 2: 3,162, 3: 1,000, 6: 1,000, 7: 1,000, 8: 1,000, 9: 1,000, 10: 1,000, 11: 1.000, 14: 1.000, 15: 11.446] r = []}

CL-2 {n = 0 c = [4: 1.000, 12: 1.000, 13: 8.315, 16: 1.000] r = [ ]}

parce que j'ai spécifié le nombre de grappes 3.

Questions connexes