0

Je veux mettre fin à un projet de fin sur l'analyse des sentiments à partir de la collecte de données. Pour cela, je commence avec des critiques IMDB, de cette page en particulier:Comment faire pour gratter les critiques IMDB

http://www.imdb.com/title/tt2137109/reviews?start=0

Je vais utiliser scrapy pour cela, à partir du code ci-dessous je peux obtenir les commentaires et titre:

import requests 
from scrapy.http import TextResponse 
import urlparse 
from urlparse import urljoin 

base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0" 
r = requests.get(base_url) 

response = TextResponse(r.url, body=r.text, encoding='utf-8') 

title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0] 

reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract() 

Le problème que j'ai est comment puis-je explorer le site pour obtenir un échantillon aléatoire? Je suis à la recherche d'un échantillon de 10k titres que je prévois d'obtenir dans 5-10 jours pour éviter de frapper inutilement le site et d'être banni.

Il y a quelques points de départ comme le top 250 list: Mais je cherche un échantillon aléatoire.

Répondre

1

1) Pourquoi utilisez-vous les demandes, si vous utilisez scrapy?

2) Extrait des liens et d'utiliser la fonction aléatoire pour que je utilise demande échantillon aléatoire

+0

1) parce que je suis en train les XPath sur un ordinateur portable. D'où puis-je prendre l'échantillon aléatoire? Je n'ai pas de liste. –