2016-06-07 1 views
1

je les données suivantes:comment supprimer les balises HTML d'une trame de données en r

enter image description here

Ce que je veux faire est de supprimer les balises HTML de la colonne de description même s'il y a des données telles que ce "Ù ... ØØ ± Ø ±/Ù ... ØØ ± Ø ± Ø ©" peut être retiré.

Voici mon code après avoir supprimé les données nulles.

mydata <- read.csv("data science - sample date.csv", header = TRUE, na.strings=c("", "NA"), sep = ",") 
mydata[mydata==""] <- NA 
mydata <-na.omit(mydata) 
+0

Il faudrait analyser le balisage pour le faire correctement. Que voulez-vous conserver? – duffymo

+0

malheureusement c'est un fichier CSV que j'ai reçu de mon client. Je veux nettoyer les données et supprimer le code HTML. – john

+0

Une image de données n'est pas un exemple reproductible. Je voudrais essayer d'analyser les données en utilisant une bibliothèque d'analyse HTML, car les expressions régulières ne sont pas suffisantes pour analyser HTML – cory

Répondre

2

Vous pouvez faire

df <- data.frame(x = c('my <a href="foo">bar</a> <span>rocks</span>')) 
df$x <- gsub("<[^>]+>", "", df$x) 
df 
#    x 
# 1 my bar rocks