J'essaie de faire du clustering k-means sur une très grande matrice.k-signifie la mise en grappes dans R sur une très grande matrice clairsemée?
La matrice est d'environ 500000 lignes x 4000 cols mais très clairsemée (seulement quelques valeurs "1" par ligne). Le tout ne rentre pas dans la mémoire, donc je l'ai converti en un fichier ARFF clairsemé. Mais R évidemment ne peut pas lire le format de fichier clairsemé ARFF. J'ai aussi les données sous la forme d'un simple fichier CSV.
Y a-t-il un paquet disponible en R pour charger efficacement de telles matrices creuses? J'utiliserais alors l'algorithme normal k-means du paquet cluster pour continuer.
Un grand merci
Merci pour la réponse! J'ai une autre question cependant :-) J'essaye de lancer bigkmeans avec un nombre de cluster d'environ 2000 par exemple "clust <- bigkmeans (mymatrix, centres = 2000)" Cependant, j'obtiens l'erreur suivante: Erreur dans 1: (10 + 2^k): le résultat serait un vecteur trop long Quelqu'un peut-il me donner un indice de ce que je fais de mal ici? Merci! – movingabout
Original à http://stackoverflow.com/questions/3177827/cluster-on-very-large-sparse-matrix –