2017-09-07 1 views
-1

J'essaie d'extraire des données de la page Web (https://www.cato.org/research/34/commentary) si python. Il contient des liens vers un article et à partir de cet article particulier, je dois extraire la date, l'auteur et le titre de l'article.Et j'ai répéter la même opération à tout l'article.Scrapy Spider Webpage Extraction

Je suis en mesure d'extraire le titre du document de cette commande:

response.css('h1.page-h1::text').extract() 

et suivre l'article lien:

response.css('p.text-large.experts-more-h' > a::attr(href)').extract_first() 

Mais comment puis-je faire pour tous les liens? S'il vous plaît, aidez, je suis nouveau à cela.

+0

Essayez '.extract()' au lieu de '.extract_first()' –

+0

vous avez posé la même question il y a un jour ... – Umair

+0

@paultrmbrth J'ai essayé .extract() mais en vain , pouvez-vous s'il vous plaît essayer. Oui Umair je l'ai fait mais n'a pas eu la solution. S'il vous plaît, aidez si vous le pouvez, c'est vraiment important. –

Répondre

1

Do

for art in response.css('p.text-large.experts-more-h' > a'): 
    art.css("::attr(href)").extract_first() 
+0

Pouvez-vous m'aider avec un fichier python? Quels extraits date et auteur. –