2010-02-20 4 views

Répondre

1

Vous pouvez utiliser une expression rationnelle pour enlever les balises html, comme:

string html = "Your html string"; 
string x = Regex.Replace(html,@"<(.|\n)*?>", string.Empty); 
+0

Puis-je obtenir la chaîne excluant les balises html de la chaîne dans laquelle les balises html sont là? – Harikrishna

+0

Et Regex est quoi? – Harikrishna

+0

@thedugas Ok ... Il est l'System.Text.RegularExpression.It fonctionne..Merci ... – Harikrishna

2

Les expressions régulières ne sont pas idéales pour HTML. Les expressions régulières sont pour le texte normal, pas HTML.

Utilisez une bibliothèque d'analyseurs HTML telle que HTML Agility Pack, gratuite et open source. Il est livré avec un HTML-to-Text converter sample.

+0

@Judah - Merci d'avoir posté cela, semble doux - ne peut pas attendre pour le vérifier. – dugas

+0

Bien que vrai, en général, le simple fait de supprimer des balises ("les choses qui commencent par' <'et se terminent par'> '") est tout à fait approprié pour une regex. –

+1

http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html –

Questions connexes