comment supprimer les balises HTML d'une trame de données en r

je les données suivantes:comment supprimer les balises HTML d'une trame de données en r

Ce que je veux faire est de supprimer les balises HTML de la colonne de description même s'il y a des données telles que ce "Ù ... ØØ ± Ø ±/Ù ... ØØ ± Ø ± Ø ©" peut être retiré.

Voici mon code après avoir supprimé les données nulles.

mydata <- read.csv("data science - sample date.csv", header = TRUE, na.strings=c("", "NA"), sep = ",") 
mydata[mydata==""] <- NA 
mydata <-na.omit(mydata)

Source

2016-06-07 john

Il faudrait analyser le balisage pour le faire correctement. Que voulez-vous conserver? – duffymo

malheureusement c'est un fichier CSV que j'ai reçu de mon client. Je veux nettoyer les données et supprimer le code HTML. – john

Une image de données n'est pas un exemple reproductible. Je voudrais essayer d'analyser les données en utilisant une bibliothèque d'analyse HTML, car les expressions régulières ne sont pas suffisantes pour analyser HTML – cory

Vous pouvez faire

df <- data.frame(x = c('my <a href="foo">bar</a> <span>rocks</span>')) 
df$x <- gsub("<[^>]+>", "", df$x) 
df 
#    x 
# 1 my bar rocks

Source

2016-06-07 18:09:26 lukeA

comment supprimer les balises HTML d'une trame de données en r

Répondre

Questions connexes