Mon fichier XML ressemble à ceci:Python: Extrait HTML à partir d'un fichier XML
<strings>
<string>Bla <b>One & Two</b> Foo</string>
</strings>
Je veux extraire le contenu de chaque chaîne < > tout en maintenant les balises internes. C'est-à-dire, je voudrais voir la chaîne de Python suivante: u "Bla <b> Un & Deux </b > Foo". Alternativement, je suppose que je pourrais régler sur vous "Bla <b> One & Deux </b > Foo", puis essayez de remplacer les entités moi-même. J'utilise actuellement lxml, qui me permet d'itérer sur les balises imbriquées, de rater le texte qui ne se trouve pas dans une balise, ou encore sur tout le contenu textuel (itertext), en perdant les informations d'étiquette. Il me manque probablement quelque chose.
Si possible, je préfère conserver lxml, bien que je puisse passer à une autre bibliothèque si nécessaire.
Il s'avère qu'au lieu d'utiliser node(), on pourrait aussi child.iterdescendants(), mais merci de me pointer dans la bonne direction. – miracle2k