Strip tout, mais le texte du html

Notre CMS permet aux utilisateurs de saisir du texte à l'aide d'un éditeur html, donc lecture d'un texte dans la page web je peux texte comme ceci:Strip tout, mais le texte du html

&#xD;&#xA;  <p>&#xD;&#xA;  <strong>text text. more 
text</strong>&#xD;&#xA;  <a href="http://blabla>blabla</a> even more text...

Comment puis-je enlever tout mais le texte y compris, et . et des personnages similaires?

Source

2009-09-08 Karsten

supposer que ce soit html (non xhtml), j'utiliser le HTML Agility Pack pour l'analyser et l'accès InnerText:

static void Main() 
{ 
    HtmlDocument doc = new HtmlDocument(); 
    doc.LoadHtml(@"&#xD;&#xA;  <p>&#xD;&#xA;  <strong>text text. more text</strong>&#xD;&#xA;  <a href=""http://blabla>blabla</a> even more text..."); 
    string s = doc.DocumentNode.InnerText; 
    // s is: &#xD;&#xA;  &#xD;&#xA;  text text. more text&#xD;&#xA;  
}

Source

2009-09-08 13:36:27

-1

Utilisez XML:

rootNode.innerText

Mais votre entrée doit être vérifié avant comme XML normalisé.

Source

2009-09-08 13:24:32

Vous pouvez le charger dans l'objet XDocument/XElement et obtenir la propriété Value, il vous retournera le texte intérieur de l'élément. Vous devrez faire cela pour chaque élément en utilisant l'énumération en profondeur de l'arborescence xml/html (et ajouter des espaces entre chaque nœud de texte interne).

hello vous obtiendrez « bonjour »
hellohello vous obtiendrez « HelloHello » en utilisant rootNode.innerText - c'est pourquoi vous devez l'utiliser pour chaque noeud pour obtenir « bonjour bonjour ».

Source

2009-09-08 13:31:07

utilisation

var a = new Regex ("< [^>] + />?"); var v = a.Remplacer ("mon texte sale ici", "");

v contiendra désormais le texte sans les attributs et les balises.

Source

2009-09-08 13:31:50

J'utilise des expressions régulières pour filtrer HTML à partir d'une page Web pour récupérer uniquement le texte lui-même, comme ceci:

Regex.Replace(requestHtml, "<.*?>", string.Empty)

Source

2009-09-21 13:27:59 armannvg

Strip tout, mais le texte du html

Répondre

Questions connexes