en grappes sur de très grandes matrices éparses?

J'essaie de faire un certain (k-means) clustering sur une très grande matrice.en grappes sur de très grandes matrices éparses?

La matrice est d'environ 500000 lignes x 4000 cols mais très clairsemée (seulement quelques valeurs "1" par ligne). Je veux obtenir environ 2000 clusters.

J'ai deux questions: - Quelqu'un peut-il recommander une plate-forme open source ou un outil pour le faire (peut-être en utilisant k-means, peut-être avec quelque chose de mieux)? - Comment puis-je estimer le temps nécessaire à l'algorithme pour terminer? J'ai essayé weka une fois, mais avorté le travail après quelques jours parce que je ne pourrais pas dire combien de temps cela prendrait.

Merci!

Source

2010-07-05 movingabout

Est-ce que c'est pour une application en temps réel ou pour votre propre développement personnel? – user373215

Reasked dans http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix. –

http://lucene.apache.org/mahout/

Source

2010-08-26 23:00:13 Doug

Pour votre cas, je suppose que votre problème est que la taille de l'entrée.

Je dirais que "cluto" est un bon outil pour les jeux de données volumineux et dispersés. Il est écrit en C. J'ai essayé environ 17 millions de lignes avec environ 400 cols. Et ça marche vite.

Link of the Cluto library

Source

2013-06-16 21:17:22 user2146628

Vous pouvez essayer paquet SPARCL dans R, il met en œuvre des rares k-means et la classification hiérarchique. Pas si facile à comprendre

Source

2014-08-08 17:00:14 svural

soyez prudent, sparcl est 'sparse' dans la sélection des caractéristiques et n'aborde pas le stockage n^2 pour la matrice de similarité. – Chris

en grappes sur de très grandes matrices éparses?

Répondre

Questions connexes