Je veux mettre fin à un projet de fin sur l'analyse des sentiments à partir de la collecte de données. Pour cela, je commence avec des critiques IMDB, de cette page en particulier:Comment faire pour gratter les critiques IMDB
http://www.imdb.com/title/tt2137109/reviews?start=0
Je vais utiliser scrapy pour cela, à partir du code ci-dessous je peux obtenir les commentaires et titre:
import requests
from scrapy.http import TextResponse
import urlparse
from urlparse import urljoin
base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0"
r = requests.get(base_url)
response = TextResponse(r.url, body=r.text, encoding='utf-8')
title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0]
reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()
Le problème que j'ai est comment puis-je explorer le site pour obtenir un échantillon aléatoire? Je suis à la recherche d'un échantillon de 10k titres que je prévois d'obtenir dans 5-10 jours pour éviter de frapper inutilement le site et d'être banni.
Il y a quelques points de départ comme le top 250 list: Mais je cherche un échantillon aléatoire.
1) parce que je suis en train les XPath sur un ordinateur portable. D'où puis-je prendre l'échantillon aléatoire? Je n'ai pas de liste. –