Fondamentalement j'ai html semblable à ceci:Xpath, la sélection de texte de B à l'intérieur div tout en prenant du texte normal
<div>
<p>
<b>1</b> Communication
</p>
<p>
<b>2</b> Errors
</p>
...
</div>
Ce que je suis en train (avec Scrapy) est quelque chose comme:
response.xpath("//div//p//text()")
Cependant, cette renvoie une liste telle que
[
"1",
"Communication",
"2",
"Errors"
]
Je veux avoir quelque chose comme:
[
"1 Communication",
"2 Errors"
]
Toute aide ici serait grandement appréciée. J'essayais de trouver un moyen d'ignorer les balises b, mais je ne pouvais pas trouver quelque chose qui fonctionne réellement. La raison pour laquelle je ne peux pas simplement joindre les index de liste par deux est parce que pas chaque html que j'ai besoin d'analyser fonctionne comme ceci. Je veux utiliser quelque chose qui pourrait ignorer les balises b si elles existent, tout en obtenant le texte dans p dans tous les cas. Merci!
C'est exactement ce à quoi je me suis tourné. Merci de le mentionner ici! –