2010-10-23 2 views
7

Je suis en train de rechercher dans Google cache, donc je dois tirer cette requête:Toute API pour effectuer une recherche dans Google Cache?

http://webcache.googleusercontent.com/search?q=cache:news.ycombinator.com/news+hacker+news 

Et obtenir un contenu comme l'horodatage de la page. Mais quand je fais cela en utilisant curl (ruby), cela donne une permission refusée, c'est-à-dire que le raclage est bloqué et que c'était prévu. Donc, y a-t-il un moyen de faire une recherche dans google cache (soit une API ou une sorte de scraping de contournement) et d'extraire des informations comme l'horodatage?

Répondre

2

Je n'ai pas reçu d'API mais je peux le racler en utilisant hpricot ou nokogiri dans les rails (curl in Rails donne une erreur d'autorisation refusée). Je vais mettre en place le code une fois que je trouverai comment extraire l'horodatage de l'URL ci-dessus en utilisant ces gemmes.

Quelqu'un a une meilleure solution?

Questions connexes