Extrait du texte entre les balises html analysées à partir de xml

Quelqu'un peut-il m'aider à extraire du texte à partir des balises html en texte brut? J'ai analysé un fichier XML et j'ai obtenu une sortie en tant que corps qui a des balises html maintenant je veux supprimer les balises et utiliser le texte.Extrait du texte entre les balises html analysées à partir de xml

merci d'avance !!!!

Source

2011-04-21 ReNa

Vous pouvez utiliser HTML Parser comme JSoup

Par exemple HTML est

<div style="height:240px;"><br>test: example<br>test1:example1</div>

Vous pouvez obtenir le code HTML en utilisant

Document document = Jsoup.parse(html); 
Element div = document.select("div[style=height:240px;]").first(); 
div.html();

Source

2011-04-21 11:17:02

Merci patron fait – ReNa

vous êtes bienvenus :) –

Essayez un HTML Parser.

Si le HTML est échappé, à savoir < au lieu de < vous pourriez avoir à décoder d'abord.

Source

2011-04-21 11:18:12 Thomas

Compte tenu de vos besoins, vous pouvez essayer Jericho HTML Parser

Jetez un oeil à TextExtractor classe:

Using the default settings, the source segment: "<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>" produces the text "One Two Three".

Source

2011-04-21 11:25:25 timbooo

Si tout ce que vous voulez faire est de supprimer les balises HTML à partir d'une chaîne, vous pouvez le faire:

String output = input.replaceAll("(?s)\\<.*?\\>", " ");

Source

2011-04-21 11:26:09 WhiteFang34

Extrait du texte entre les balises html analysées à partir de xml

Répondre

Questions connexes