J'ai cette requête XPath:Comment extraire des liens d'une page Web en utilisant lxml, XPath et Python?
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
Il extrait tous les liens avec l'attribut title - et donne le href
dans FireFox's Xpath checker add-on. Cependant, je n'arrive pas à l'utiliser avec lxml
.
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
Ce produit aucun résultat de lxml
(liste vide).
Comment attraper le texte href
(lien) d'un lien hypertexte contenant le titre de l'attribut avec lxml
sous Python?
Le document analysé comporte-t-il un espace de nommage (xmlns)? –