J'ai un grand ensemble de données (> 37 m individus) et j'utilise R. Je suis un débutant. Actuellement, j'essaie (et j'essaie et j'essaie) de calculer la taille moyenne des ménages par province dans le pays que j'analyse. J'ai réussi à créer une trame de données séparée, avec les variables requises pour donner un numéro individuel à chaque personne et donc un numéro de ménage sous la variable appelée HH (pour HouseHolds). Maintenant, je veux que R supprime les doublons de cette colonne spécifique dans le nouveau bloc de données que j'ai créé, c'est-à-dire la colonne HH.Enlever des doublons dans R
J'ai essayé plusieurs fois d'utiliser les fonctions duplicate() et unique() mais cela ne fonctionne pas. J'ai également essayé d'isoler la colonne "HH" dans une feuille séparée mais ces fonctions ne suppriment toujours pas les doublons. J'ai également essayé de le convertir en un vecteur, puis en faisant les fonctions duplicate() et unique() (comme vous pouvez le voir ci-dessous). Lorsque j'utilise un plus petit échantillon dans Excel, cela fonctionne parfaitement bien (en demandant d'exceler les doublons).
Voilà comment je créé mon jeu de données basé sur mon jeu de données initial (c.-à-PHCKCON):
HHvars<-c("eano", "county", "tif")
HHKE<-PHCKCON[HHvars]
as.numeric(HHKE$county)
HHKE$county<-as.numeric(HHKE$county)
Puis j'ai créé une 4ème colonne pour mes ménages:
HHKE$HH<-(paste(HHKE$eano, HHKE$county, HHKE$tif))
Voici un exemple de mon jeu de données: The values in the first three columns are numeric whilst the last are classified as characters
Voici un petit échantillon des données (j'ai inventé ces mêmes mais idée):
Enumeration.area County Household.members
1 a 4
1 a 4
1 a 6
1 a 6
1 a 8
1 a 8
1 a 8
2 a 4
2 a 4
2 a 6
1 b 6
1 b 6
1 b 8
1 b 8
1 b 12
1 b 12
1 b 12
1 b 12
Et voici ce que je l'ai fait pour créer ma 4e colonne appelée HH:
mydata$HH<-paste(mydata$Enumeration.area, mydata$County, mydata$Household.members)
Il donne alors une quatrième colonne.
HH
1 a 4
1 a 4
1 a 6
1 a 6
1 a 8
1 a 8
1 a 8
1 a 8
2 a 4
2 a 4
2 a 6
2 a 8
1 b 6
1 b 6
1 b 8
1 b 8
1 b 12
1 b 12
1 b 12
1 b 12
Ensuite, je créé un ensemble de données séparé pour ma colonne HH (afin de dupliquer):
attach(mydata)
HHvars<-c("HH")
EX2<-mydata[HHvars]
J'ai ensuite essayé de reproduire EX2, HH Colum:
EX2[!duplicated(EX2$HH),]
Mais ne fonctionne pas. Et pas lors de l'utilisation du
unique()
fonction non plus.
J'espère que c'est plus clair! Et toujours reconnaissant pour toute aide.
Cheers, Madeleine
Alors qu'est-ce que vous essayez de faire exactement? Pourriez-vous donner un exemple de la sortie que vous essayez? Et pourriez-vous clarifier ce que représentent ces variables dans vos colonnes? –
Je ne sais pas comment expliquer ça ... Le résultat final que je veux, c'est que R me dise la taille moyenne du ménage. Pour l'instant, R ne résume pas toutes les mêmes réponses. –
Publiez un exemple d'entrée avec les noms de colonne appropriés et l'exemple de sortie souhaité. Vous pouvez créer vous-même ces petites données d'entrée/sortie dans R et les afficher en tant que modification de votre question. C'est le meilleur moyen d'obtenir de l'aide. – Gopala