J'essaie de boucler sur la matrice a et de faire le coefficient de corrélation de chaque deux lignes et d'imprimer la matrice de corrélation.Itérer sur la grande matrice contenant 3000 lignes et calculer la corrélation
ID A B C D E F G H I
Row01 0.08 0.47 0.94 0.33 0.08 0.93 0.72 0.51 0.55
Row02 0.37 0.87 0.72 0.96 0.20 0.55 0.35 0.73 0.44
Row03 0.19 0.71 0.52 0.73 0.03 0.18 0.13 0.13 0.30
Row04 0.08 0.77 0.89 0.12 0.39 0.18 0.74 0.61 0.57
Row05 0.09 0.60 0.73 0.65 0.43 0.21 0.27 0.52 0.60
Row06 0.60 0.54 0.70 0.56 0.49 0.94 0.23 0.80 0.63
Row07 0.02 0.33 0.05 0.90 0.48 0.47 0.51 0.36 0.26
Row08 0.34 0.96 0.37 0.06 0.20 0.14 0.84 0.28 0.47
........
(30000 rows!)
Je veux la sortie de corrélation Pearson:
Row01
Row01 1.000
Row02 0.012
Row03 0.023
Row04 0.820
Row05 0.165
Row06 0.230
Row07 0.376
Row08 0.870
sortie comme Row01.txt
Row02
Row01 0.012
Row02 1.000
Row03 0.023
Row04 0.820
Row05 0.165
Row06 0.230
Row07 0.376
Row08 0.870
sortie comme Row02.txt. . . . .
les fichiers de sortie seront 30000! Je suis conscient de cet algorithme semble stupide, que matrix<-cor(T(data))
fera le tout, et la moitié de la matrice corr est suffisante car le résultat corr est symétrique le long de la diagonale.
Mais mes problèmes sont
- mes données est trop grand pour gérer R 30000x30000.
- Il est difficile de récupérer les corrélations spécifiques d'une ligne spécifique avec le reste.
- En utilisant mon "algorithme stupide" je peux facilement obtenir la corr de mon intérêt du dossier.
Hm Je crains que ça ne vole pas. L'affiche originale revendiquée 'datamatrix' était trop grande pour la mémoire. –
@Dirk Eddelbuettel: hmmm c'est vrai, j'ai supposé qu'il parlait de la matrice de sortie, mais la matrice d'entrée est énorme aussi ... n'y pensait pas. N'y avait-il pas un paquet pour gérer d'énormes matrices en mémoire ou ai-je tort? – nico
Merci! J'ai eu un problème avec mon SUSE où je veux utiliser. Je vais essayer le code et revenir bientôt. – Ivan