2011-07-27 5 views
1


J'ai deux ensembles de données que je voudrais étudier. La première concerne les données relatives au gène/génome, qui sont attribuées à différents «états de cellules». Le deuxième ensemble de données concerne les gènes d'une voie biologique. Je crois ma question est un relationnel db un.

'Comment puis-je montrer les données liées à une base de données et les relier à une autre. En d'autres termes, je veux représenter graphiquement les données de l'état de la cellule et les relier aux voies et à leurs gènes spécifiques. (je pense en images ici va donc.)
dataframe1 - données à partir d'un gène Affymetrix gène puce
, cellule-state1, état2-cellule ...
gene1, x1, y1 ,. ..
gene2, x2, y2, ...
gene.x, ... ...

"1" "gène" "log_b" "log_b_rich" "Fc_cdt_rich_tot" "fc_Etoh_CDT_tot_mono" « fc_Etoh_CDT_tot_poly "" fc_Etoh_CDT_mono_poly "" fc_Etoh_Rich_tot_mono "" fc_Etoh_Rich_tot_poly "" fc_Etoh_Rich_mono_poly " « 2 » « PHF13 » -2,712616698 -1,47923545 -0,791138043 -0,549610558 0,143808182 0,69341874 0,320812876 1,089260116 0,76844724
« 3 » « SPSB1 » -1,808348454 -1,965601198 -1,349135752 -0,780105329 0,410647447 1,190752776 0,587287796 1,260350195 0,673062399

dataframe2 - données de la KEGG db
pathway1, gène x1, x2 gène, ...
pathway2, le gène-y1, y2 gène, ...
pathway3, le gène-z1, ...

"1" "KEGG_GLYCOLYSIS_GLUCONEOGENESIS" "PHF13" "LDHB" "LDHA" "PGAM1" "ADH1C" "PGAM2" "ADH1B" "ADH1A" "ACSS2" "PDHB" "ACSS1" "PGAM4" "PDHA2" " PDHA1 "" LDHAL6B "" PFKL "" LDHAL6A "" FBP1 "" PFKP "" ALDH3B2 "" FBP2 "" PFKM "" ALDH3B1 "" PGM2 "" G6PC "" ALDH7A1 "" ALDH1B1 "" PKM2 "" PGM1 "" DLD " "PKLR" "ALDH9A1" "ALDOA" "ALDOC" "ALDOB" "ADH5" "HK2" "HK1" "ADH6" "ADH7" "ALDH3A2" "G6PC2" "ALDH3A1" "GALM" "TPI1" "AKR1A1" "ADH4 "" HK3 "" ALDH1A3 "" ENO2 "" ENO3 "" GAPDH "" ENO1 "" BPGM "" DLAT "" PCK2 "" PCK1 "" GPI "" GCK "" ALDH2 "" PGK1 "" PGK2 "
" 2 "" KEGG_CITRATE_CYCLE_TCA_CYCLE "" PHF13 "" OGDHL "" OGDH "" PDHB "" IDH3G "" LOC283398 "" IDH2 "" IDH1 "" PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 " "SUCLG2" "ACO1"

"PHF13" est mis en évidence pour montrer la pertinence dans chaque étape. Ce que je veux faire est de voir si 'cell-state1' (in) active différents gènes/voies de 'cell-state2.' En outre, je voudrais tester la corrélation (t-test et peut-être graphique) entre les états de cellules 1 Vs 2 pour les voies spécifiques.

Ma question est, quelles commandes ou méthode me permettraient de le faire le plus facilement/efficacement: fusionner ou en utilisant variable dummy?

HTH
Qu'est-ce qui est plus facile? Merge ou variables d'indicateur?

+3

Veuillez reformuler votre question de manière à ce qu'elle devienne réellement un problème de programmation et que le problème soit clair (y compris la structure de vos données). Qu'est-ce que gene-x1, ... qu'est ce que l'état de cellule, ...? Donnez un exemple de jeu de données afin que nous ayons un indice. Voir aussi http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example –

Répondre

0

Ce que je veux faire est, voir si 'cellule-state1' (in) active les voies différentes de gènes de 'cellules état2'.

Cela ressemble à ce dont vous avez besoin est une analyse factorielle. Vous pourriez demander aux bonnes personnes de statistics.stackexchange.com à ce sujet.

+0

Je ne crois pas que ma question soit nécessairement une statistique, mais une relationnelle. Peut-être que ma question pourrait être: «Comment puis-je montrer les données liées à une base de données et les relier à une autre. Je veux représenter graphiquement les données de l'état des cellules et les relier aux gènes et aux voies. – oaxacamatt

Questions connexes