J'essaie de récupérer des commentaires d'un site de nouvelles populaires pour une étude académique utilisant curl. Cela fonctionne bien pour les articles avec < 300 commentaires, mais après cela, il se débat.Utilisation de curl pour gratter de grandes pages
$handle = curl_init($url);
curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($handle);
curl_close($handle);
echo $html; //just to see what's been scraped
À l'heure actuelle cette page fonctionne très bien: http://www.guardian.co.uk/commentisfree/2012/aug/22/letter-from-india-women-drink?commentpage=all#start-of-comments
Mais celui-ci ne retourne que 36 commentaires malgré qu'il y ait plus de 700 au total: http://www.guardian.co.uk/commentisfree/2012/aug/21/everyones-talking-about-rape?commentpage=all#start-of-comments
Pourquoi est-il du mal pour les articles avec une tonne de commentaires?
Vous devriez vérifier [Scrapy] (http://scrapy.org/) ... –
Il est utilisé pagination. Vous devez connaître le nombre de pages et utiliser le cycle pour obtenir des commentaires de chaque page. –