2016-11-24 1 views
2

J'ai un ensemble de données climatiques (température, pression et humidité par exemple), X, Y, Z qui sont des matrices avec des dimensions (nxp) où n est le nombre d'observations et p est le nombre de points spatiaux.PCA (analyse des composantes principales) sur plusieurs jeux de données

Auparavant, pour étudier les modes de variabilité dans X ensemble de données, je simplement procédé à une analyse fonction empirique orthogonale (EOF) OU composantes principales Analyse (PCA) sur X. Cela impliquait la décomposition (via SVD), la matrice X.

Pour étudier le couplage des modes de variabilité de X et Y, j'ai utilisé l'analyse de covariance maximale (MCA) qui impliquait la décomposition d'une matrice de covariance proportionnelle à XY^{T}. (T est la transposition)

Cependant, si je souhaite examiner les trois ensembles de données, comment puis-je procéder? Une idée que j'avais été pour former une quatrième matrice, L, qui sera la concaténation « caractéristique » des trois ensembles de données:

L = [X, Y, Z]

pour que ma matrice L aura dimensions (nx 3p). J'utiliserais alors l'analyse PCA/EOF standard et j'utiliserais SVD pour décomposer cette matrice L et alors j'obtiendrais des modes de variabiilty avec la taille (3p x 1) et donc par la suite le mode associé à X est les p premières valeurs, le mode associé à Y est le deuxième ensemble de p valeurs et le mode associé à Z est les dernières valeurs p.

Est-ce correct? Ou quelqu'un peut-il suggérer une meilleure façon de regarder le couplage des trois ensembles de données (ou plus)?

Merci beaucoup!

Répondre

1

Je recommanderais de traiter les points spatiaux comme des dimensions supplémentaires, c'est-à-dire f x n x p, où «f» correspond au nombre d'entités. À ce stade, vous devez utiliser multilinear extension of PCA qui peut fonctionner sur les données de tenseurs.