J'utilise le package hochet pour effectuer un nettoyage de données et je considère la première variable X dans mon ensemble de données. Il signale, quand je fais dans le premier onglet, l'onglet "Données", j'obtiens quelques bases de l'ensemble de données et il dit que la variable X qui a 1243 valeurs manquantes. C'est aussi la valeur que j'obtiens si j'utilise sum(is.na(my_df[,1]))
.Existe-t-il différents types de NA?
Sur l'onglet suivant, l'onglet « Explorer », quand je vérifie « Résumé », il dit maintenant que je viens de 942 dans la variable X. NAs
Comment puis-je donne un sens à ces chiffres différents? J'ai manuellement parcouru un peu mon ensemble de données et j'ai regardé quelques lignes qui avaient des NA et ces NA se ressemblent tous (je comprends qu'il y a parfois différents types d'AN).
(question Side: sum(is.na(my_df[,1]), na.rm = FALSE)
et sum(is.na(my_df[,1]),na.rm = TRUE)
également les deux produisent le même nombre 1243, pourquoi je me serais attendu que l'on me donne length(my_df[,1])-1243
?.)
EDIT est le jeu de données ici qui a ce problème : https://wetransfer.com/downloads/cf454b2c12857a4e3770102a7222422f20171019153755/516fb0. Les chiffres sont légèrement différents, au lieu de 1243, nous avons 88 NA selon l'onglet "Données" dans rattle() (ou, de manière équivalente, selon summary(ten_df)
), et 62 NA selon le "Explore" avec l'onglet Résumé vérifié.
Mais maintenant je soupçonne que mon jeu de données est cassé parce qu'avant de télécharger le jeu complet, je voulais initialement télécharger seulement une colonne illustrative. Mais quand j'exécute
ten_df = read.csv("ten.csv",sep=";")
my_df = as.data.frame(ten_df[,3])
que je veux regarder la troisième colonne avec var2
et my_df
était ce que je voulais télécharger l'origine, la dernière commande renvoie une erreur
Warning messages:
1: In rep(no, length.out = length(ans)) :
'x' is NULL so the result will be NULL
En outre, lors de la sélection après my_df pour l'analyser avec hochet, hochet dit "0 variable d'entrée" dans la barre en bas où il donne un retour. Comment se peut-il?
Quant à votre question de côté, 'is.na' ne peut revenir' TRUE/FALSE', argument 'na.rm' est hors de propos . Pour voir ceci, essayez 'x <- c (1: 3, NaN, NA, 4, 5, NA); sum (is.na (x)) '. En ce qui concerne la différence dans les valeurs rapportées des valeurs manquantes, il est difficile de dire sans voir les données. Je ferais confiance 'summary (X)'. –
@RuiBarradas Merci! – billyboy