2010-08-04 4 views
4

J'ai rencontré un réel problème. J'ai besoin de faire quelques clustering de Kmeans pour 5 millions de vecteurs, contenant chacun environ 32 cols. J'ai essayé Mahout qui nécessite linux et je suis sur Windows, je suis retenu d'utiliser un système d'exploitation Linux et n'importe quel simulateur. Quelqu'un peut-il suggérer un algorithme de clustering KMeans qui est extensible jusqu'à 5M vecteurs et peut converger rapidement?Clusters de KMeans pour plus de 5 millions de vecteurs

J'ai testé quelques-uns mais ils ne vont pas évoluer. Ce qui signifie qu'ils sont lents et prennent une éternité à terminer.

Merci

+0

combien de groupes? Euclidien ou une métrique personnalisée? – denis

+0

Clusters euclidiens –

Répondre

2

OK, Qui veut toujours le regroupement pour les grands ensembles de données à grande échelle, la seule façon de le faire est d'utiliser Mahout. L'informatique nécessite une plate-forme Linux. J'ai donc dû utiliser une boîte virtuelle, y placer Ubuntu et ensuite utiliser Mahout. C'est une procédure longue pour mettre en place Mahout, mais les deux liens que j'ai utilisés sont les suivants.

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

+0

Les liens ne sont plus corrects, mais vous pouvez facilement trouver ces guides avec google. –

+0

La parenthèse de fin devrait être la partie de l'URL. Ci-dessus, vous pouvez voir qu'il n'est actuellement pas mis en surbrillance dans le cadre de l'URL. Ajoutez-le quand url dans votre navigateur et vous amènera à la page –

Questions connexes