J'ai rencontré un réel problème. J'ai besoin de faire quelques clustering de Kmeans pour 5 millions de vecteurs, contenant chacun environ 32 cols. J'ai essayé Mahout qui nécessite linux et je suis sur Windows, je suis retenu d'utiliser un système d'exploitation Linux et n'importe quel simulateur. Quelqu'un peut-il suggérer un algorithme de clustering KMeans qui est extensible jusqu'à 5M vecteurs et peut converger rapidement?Clusters de KMeans pour plus de 5 millions de vecteurs
J'ai testé quelques-uns mais ils ne vont pas évoluer. Ce qui signifie qu'ils sont lents et prennent une éternité à terminer.
Merci
combien de groupes? Euclidien ou une métrique personnalisée? – denis
Clusters euclidiens –