Disons que j'ai deux variables dans un ensemble de données qui contiennent la même information, comme "mâle" et "femelle" (en supposant seulement 2 sexes et aucune donnée manquante). Comment puis-je tester que les deux colonnes contiennent les mêmes informations, ce qui me permet de supprimer l'une d'entre elles?R: Test si les variables contiennent la même information
Je pensais à vérifier le rang d'une matrice les contenant, mais apparemment une telle matrice est de rang entier, même si les colonnes sont clairement dépendantes les unes des autres.
EDIT: Je veux dire deux variables telles que les suivantes:
M F
1 0
1 0
0 1
0 1
1 0
Il est clair que les mêmes informations sont contenues dans ces deux variables. Comment puis-je tester pour cela?
Bonjour Noah, pouvez-vous donner un exemple de ce que vous voulez dire? Voulez-vous dire que les colonnes sont identiques (mêmes valeurs, même ordre), ou simplement qu'elles ont les mêmes niveaux de facteur? –
Si vous souhaitez utiliser le rang de la matrice, vous devez ajouter une colonne de 1s. Si vous ajoutez cela alors le rang de la matrice résultante sera toujours seulement 2 au lieu de 3 même s'il y a trois colonnes. – Dason
Pour l'exemple présenté, ils auront une corrélation de 1 ou -1, donc vous pouvez tester ceux qui sont redondants avec 'apply (cor (df), 1, function (x) {any (abs (x) == 1) }) ', mais s'il y a des multiples, vous devrez aller voir' cor (df) 'pour voir comment ils sont appariés. – alistaire