Je travaille avec XPATH, Java et je veux extraire du texte d'une page html. Le texte se trouve sous une div avec des espaces entre les caractères, comme
<br>
etc. Je veux que ces éléments soient convertis en 'espace' et 'nouvelle ligne' respectivement lors de l'extraction. La méthode que j'utilise pour extraire du texte est Element.getTextContent() qui ne respecte pas les espaces.getTextContent de Nœud avec normalisation des caractères blancs
Quelqu'un pourrait-il me dire s'il y a un moyen d'extraire du texte avec la normalisation des espaces OU Extrait tout le balisage HTML sous le « nœud » pour que je puisse le remplacer par moi-même. Merci Nayn
Bonne question (+1). Voir ma réponse pour une solution complète. –