3

J'essaie de faire un certain (k-means) clustering sur une très grande matrice.en grappes sur de très grandes matrices éparses?

La matrice est d'environ 500000 lignes x 4000 cols mais très clairsemée (seulement quelques valeurs "1" par ligne). Je veux obtenir environ 2000 clusters.

J'ai deux questions: - Quelqu'un peut-il recommander une plate-forme open source ou un outil pour le faire (peut-être en utilisant k-means, peut-être avec quelque chose de mieux)? - Comment puis-je estimer le temps nécessaire à l'algorithme pour terminer? J'ai essayé weka une fois, mais avorté le travail après quelques jours parce que je ne pourrais pas dire combien de temps cela prendrait.

Merci!

+0

Est-ce que c'est pour une application en temps réel ou pour votre propre développement personnel? – user373215

+1

Reasked dans http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix. –

Répondre

1

Pour votre cas, je suppose que votre problème est que la taille de l'entrée.

Je dirais que "cluto" est un bon outil pour les jeux de données volumineux et dispersés. Il est écrit en C. J'ai essayé environ 17 millions de lignes avec environ 400 cols. Et ça marche vite.

Link of the Cluto library

0

Vous pouvez essayer paquet SPARCL dans R, il met en œuvre des rares k-means et la classification hiérarchique. Pas si facile à comprendre

+1

soyez prudent, sparcl est 'sparse' dans la sélection des caractéristiques et n'aborde pas le stockage n^2 pour la matrice de similarité. – Chris

Questions connexes