2009-12-11 6 views
0

Bonjour à tous, je suis maintenant en utilisant un outil WebComment récupérer les pages google

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

pour analyser une page Web.

Par exemple, nous pouvons analyser la page d'accueil NewYorkTimes, nous:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

dans la barre d'adresse de notre navigateur, il analysera les choses bien pour nous.

Cependant, il échoue juste pour les pages google. Par exemple, si je veux analyser headpage de nouvelles Google, comme:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Je vais toujours obtenir 500 Internal Server Error.

Je suis sûr que c'est quelque chose à voir avec google site, je pense que nous avons probablement besoin d'API pour google, est-ce que quelqu'un a une idée de comment trier cela pour les pages google? Merci beaucoup.

Répondre

2

Par le fichier google.com robots.txt, vous êtes explicitement invité à ne pas rayer leur contenu. Google ne fournit pas d'API pour les résultats de recherche lisibles par machine. ils veulent contrôler la présentation de leur contenu via des widgets et des stratégies d'intégration.

+0

Merci, Jonanthan, aide Qu'en est-il de Yahoo! ou Bing? – Kevin

+0

En fait, Robert devrait lire le fichier robots.txt. Certaines parties de Google -are- explicitement autorisé à racler. –

+0

Pas les résultats de la recherche, non. –

Questions connexes