2010-03-18 7 views
1

Je suis nouveau à R, quelqu'un peut me aider avec boxplot pour un ensemble de données comme:aide boxplot nécessaire

fichier1

 col1 col2  col3  col4 col5 
050350005 101 56.625 48.318 RED  
051010002 106 50.625 46.990 GREEN  
051190007 25 65.875 74.545 BLUE  
051191002 246 52.875 57.070 RED  
220050004 55 70  80.274 BLUE  
220150008 75 67.750 62.749 RED  
220170001 77 65.750 54.307 GREEN 

fichier2

 col1 col2  col3  col4 col5 
050350005 101 56.625 57  RED 
051010002 106 50.625 77  GREEN  
051190007 25 65.875 51.6 BLUE  
051191002 246 52.875 55.070 RED  
220050004 55 70  32  BLUE  
220150008 75 67.750 32.49 RED 
220170001 77 65.750 84.07 GREEN 

pour chaque couleur (rouge, vert et bleu), j'ai besoin de comparer fichier1 et fichier2 en faisant une boîte avec MB et RMSE pour (col4-col3) pour fichier1 et fichier2 en divisant col2 dans un groupe différent: si col2 < 20,20 < = col2 < 50, 50 < = col2 < 70, col2> = 70. C'est, pour le boxplot, le x est (< 20, 20-50,50-70,> 70), tandis que y est MB (et RMSE) de la différence de col4 et col3

J'espère que je didn ' Ne confondez personne. Merci beaucoup.

Répondre

1

Je pense qu'il pourrait y avoir un peu de confusion sur ce que fait un boxplot. Bien qu'il soit possible de créer des groupes sur l'axe des x, pour autant que je sache, l'axe y montre la distribution d'une certaine mesure (je suppose soit col3 ou col4, dans votre cas), et non la RMSE ou MBE de ces mesures, ce qui serait une valeur unique pour chaque groupe.

Je ne suis pas sûr si votre variable de regroupement (pour l'axe des x) est col5, les fichiers ou les critères que vous listez pour col2, ou tous les? Peu importe, vous aurez besoin de plus de données pour que les graphiques soient significatifs.

Ceci est un exemple de base d'un boxplot de col3 regroupés par Col5 et fichier:

col3 = c(56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750, 56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750) 
col5 = c("RED", "GREEN", "BLUE", "RED", "BLUE", "RED", "GREEN", "RED", "GREEN", "BLUE","RED","BLUE","RED","GREEN") 
myfile = c(1,1,1,1,1,1,1,2,2,2,2,2,2,2) 
mydata = data.frame(col3, col5, myfile) 
boxplot(col3 ~ col5 + myfile, data = mydata) 

Notez que parce que le nombre de cas est limité, vous ne voyez pas les moustaches sur certaines catégories, ni les valeurs aberrantes . Vous auriez besoin de plus de données pour cette parcelle pour être utile, tout ce qu'il montre maintenant est une comparaison des médianes.

Pouvez-vous clarifier ce que vous espériez que l'intrigue montrerait?