2010-09-22 6 views
4

Existe-t-il un moyen facile de supprimer les balises HTML d'une chaîne de caractères dans R?Supprimer les balises HTML de la chaîne (Programmation R)

Actuellement, j'extrais des données d'enquête à partir d'un document XML et, pour le titre de la question, j'ai le code HTML du plan de sondage, comme ceci.

"Why did you give this performance question a low score?<br />" 

Toute façon d'enlever facilement le <br />?

Toute aide serait appréciée.

Répondre

4

Jetez un oeil à ?gsub et ?regex. Voici un code simple pour supprimer le <br />, mais il ne fonctionnera pas pour tous les tags HTML potentiels.

> string <- "Why did you give this performance question a low score?<br />" 
> gsub("<.*/>","",string) 
[1] "Why did you give this performance question a low score?" 
+0

Merci pour cela, il m'a fait sur mon chemin pour trouver « gsub (« <(.|\n)*?> », « », string) » –

+0

Juste pour marquer, il peut être utile de consulter ce sage conseil au sujet de regex pour l'analyse syntaxique html .. http://stackoverflow.com/a/1732454/1156245 – geotheory

Questions connexes