Clusters de KMeans pour plus de 5 millions de vecteurs

J'ai rencontré un réel problème. J'ai besoin de faire quelques clustering de Kmeans pour 5 millions de vecteurs, contenant chacun environ 32 cols. J'ai essayé Mahout qui nécessite linux et je suis sur Windows, je suis retenu d'utiliser un système d'exploitation Linux et n'importe quel simulateur. Quelqu'un peut-il suggérer un algorithme de clustering KMeans qui est extensible jusqu'à 5M vecteurs et peut converger rapidement?Clusters de KMeans pour plus de 5 millions de vecteurs

J'ai testé quelques-uns mais ils ne vont pas évoluer. Ce qui signifie qu'ils sont lents et prennent une éternité à terminer.

Merci

Source

2010-08-04 Anonymous

combien de groupes? Euclidien ou une métrique personnalisée? – denis

Clusters euclidiens –

OK, Qui veut toujours le regroupement pour les grands ensembles de données à grande échelle, la seule façon de le faire est d'utiliser Mahout. L'informatique nécessite une plate-forme Linux. J'ai donc dû utiliser une boîte virtuelle, y placer Ubuntu et ensuite utiliser Mahout. C'est une procédure longue pour mettre en place Mahout, mais les deux liens que j'ai utilisés sont les suivants.

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

Source

2010-08-23 04:01:58

Les liens ne sont plus corrects, mais vous pouvez facilement trouver ces guides avec google. –

La parenthèse de fin devrait être la partie de l'URL. Ci-dessus, vous pouvez voir qu'il n'est actuellement pas mis en surbrillance dans le cadre de l'URL. Ajoutez-le quand url dans votre navigateur et vous amènera à la page –

Clusters de KMeans pour plus de 5 millions de vecteurs

Répondre

Questions connexes