J'essaie d'exécuter fastclust sur un très grand nombre de distances, mais je rencontre un problème.Clustering hiérarchique Grande matrice de distance clairsemée R
J'ai un très grand fichier csv (environ 91 millions de lignes si une boucle est trop long en R) des similitudes entre les mots-clés (environ 50 000 mots-clés uniques) que lorsque je lis dans un data.frame ressemble:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
il est une liste clairsemée et je peux le convertir en une matrice creuse en utilisant matrice creuse():
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
Cependant, lorsque je tente de le transformer en un objet à l'aide dist as.dist(), J'ai l'erreur que le «problème est trop grand» de R. J'ai lu les autres questions dist sur ici, mais le code que d'autres ont suggéré ne fonctionne pas pour mon exemple de jeu de données ci-dessus.
Merci pour toute aide!