J'ai utilisé Mahout pour les documents de texte en cluster k-means en utilisant les entrées d'index XML et SOLR. Le regroupement semble fonctionner, et des documents similaires sont en effet mis dans le même cluster k-means, ce qui est génial. Cependant, chaque fois que j'affiche la sortie graphml en utilisant ClusterDump (--outputFormat GRAPH_ML), j'obtiens un graphique montrant tous les clusters, mais avec chaque élément affiché autour de la circonférence de son groupe parent, ce qui signifie que chaque élément a approximativement le même rayon du centroïde. Je m'attendais à ce que les éléments soient dispersés à travers le groupe en fonction de leur similarité les uns avec les autres (comme dans les exemples de Mahout)Mahout ClusterDump - résultats bizarres lors de l'affichage de la sortie graphml
Est-ce que quelqu'un a vu quelque chose de similaire avec ses grappes Mahout k-means? J'ai essayé d'aller au fond des choses moi-même, mais tout conseil ou suggestion serait d'une aide précieuse.
Avec merci beaucoup,
P Morris