Je voulais gratter un website. L'extraction que je veux faire est la liste des documents, le nom de l'auteur et la date. J'ai regardé quelques vidéos d'araignées scrapy et capable de comprendre 3 commande de script de coquille qui donne les données requises du site Web. Les commandes sontScapes multiples avec araignée Scrapy
scrapy shell https://www.cato.org/research/34/commentary
pour ce jour:
response.css('span.date-display-single::text').extract()
pour auteur:
response.css('p.text-sans::text').extract()
pour les liens de documents dans la page
response.css('p.text-large.experts-more-h > a::text').extract()
Je suis en train de l'obtenir à travers Python mais en vain. Comme il y a plusieurs données.
Voici le code python:
import scrapy
class CatoSpider(scrapy.Spider):
name = 'cato'
allowed_domains = ['cato.org']
start_urls = ['https://www.cato.org/research/34/commentary']
def parse(self, response):
pass
Ne pas utiliser 'css' pour cette , mieux vaut 'xpath' – AndMar
J'essaie de construire un module de plus et la tâche sera de cliquer sur le lien de l'article et d'extraire la date, l'auteur et le titre de l'article. Et faites ceci pour tout l'article lien la page Web (cato.org/research/34/commentary). S'il vous plaît aider – Shad