Ce qui pourrait être un algorithme de calcul de la matrice de corrélation croisée de Pearson dans un environnement distribué où mes données sont divisées par id (exemple: 1-4) et temps (disons: Jan-Dec) parmi différents nœuds.Algorithme distribué pour le calcul de la matrice de corrélation croisée de Pearson partitionnée par le temps et la clé
Par exemple:
Node A({id1, Jan}, {id2, Jan}); Node B({id3, Jan}, {id4, Jan}),
Node C({id1, Feb}, {id2, Feb}); Node A({id1, March}{id2, March}),
Node C({id3, Feb}, {id4, Feb}); Node B({id3, March}, {id4, March})
En fait, je voulais dire les données Jan pour tous les id ne sont pas à un nœud. Je me demande quelle stratégie je pourrais utiliser lorsque je n'aurais pas à envoyer de grandes données d'un nœud à un autre nœud, car la corrélation de Pearson est un calcul par paire. Je suis d'accord avec le transfert de petit résultat intermédiaire entre les nœuds. Comment dois-je partitionner mes données en fonction de l'identifiant et du temps afin de calculer efficacement la matrice de corrélation croisée entre plusieurs identifiants.
La langue de choix est C++
je ne pouvais pas le comprendre. Peux-tu nous expliquer un peu plus, peut-être avec quelques photos. –
Où avez-vous trouvé cette forme de formule de covariance? –
N = somme [n] N_n Quelle est cette ligne? –