J'ai ce jeu de données CSV et j'ai besoin de créer une fonction pour effectuer le nettoyage des données, mais ne fonctionne toujours pas et je suis à court d'idée. Il s'agit du dataset sur Google Drive.Nettoyage des données et des mots mal orthographiés dans un tableau
Voici ce que je dois faire:
- Correction des fautes de frappe possibles
- Suppression des données non pertinentes (uniquement des maisons à Auckland et Wellington sont considérés)
- aberrantes Enlever, par exemple zone négative, les consommations d'énergie négative, les zones très élevées, les consommations de puissance très élevée
Jusqu'à présent, c'est le code que je l'ai fait:
# Reading data set
installed.packages("lubridate")
library(lubridate)
# Reading data set
power <- read.csv("data set 6.csv", na.strings="")
# SUBSETTING
Area <- as.numeric(power$Area)
City <- as.character(power$City)
P.Winter <- as.numeric(power$P.Winter)
P.Summer <- as.numeric(power$P.Summer)
#Data Cleaning
levels(power$City) <- c(levels(power$City), "Auckland")
power$City[power$City == "Ackland"] <- "Auckland"
#Removing irrelevant data (only houses in Auckland and Wellington are considered)
power$City <- power$City[-c(496,499), ]
Après avoir exécuter ce code, les mots mal orthographiés ("Ackland ") ne change pas à Auckland comme je m'y attendais. Cela mettait en lumière la ligne comme le montre cette image est censée passer à Auckland:
Les questions qui cherchent une aide au débogage («pourquoi ce code ne fonctionne-t-il pas?») Doivent inclure le comportement souhaité, un problème ou une erreur spécifique et le code le plus court nécessaire pour le reproduire dans la question. Les questions sans énoncé de problème clair ne sont pas utiles aux autres lecteurs. Voir: Comment créer un exemple minimal, complet et vérifiable. –
Voir la fonction '? Droplevels'. –
@ MarcusMüller J'espère que l'image que j'ai téléchargé pourrait donner une idée de ce que j'attends – Nelson