2011-09-20 1 views
1

J'ai un corpus de paroles de chansons indiennes et j'ai besoin de les marquer avec leur année de sortie pour une expérience sur laquelle je travaille.Comment explorer des liens vers un domaine particulier en effectuant une recherche sur Google?

Il ya un site web (lyricsindia.net), qui a une base de données exhaustive de ces paroles avec des années, mais malheureusement, les paroles ne peuvent être recherchées sur le site. Au lieu de cela, quand je google avec une partie des paroles comme chaîne de recherche, le lien vers la chanson sur lyricsindia.net est toujours dans le top 10 des résultats.

Maintenant, je me demandais s'il était possible d'utiliser des frameworks d'exploration Web comme scrapy pour utiliser une chaîne de recherche comme point de départ pour l'exploration. Chaque tutoriel Scrapy que j'ai rencontré commence par une URL de départ.

Répondre

0

Votre chaîne de recherche peut faire partie de l'URL avec Scrapy. quelque chose comme google.com?q=my+string

Ou, vous pouvez récupérer le formulaire de recherche, et remplissez-le avec votre chaîne, quelque chose comme:

return [FormRequest.from_response(response, 
      formdata={'search': 'you\'re search string'}, 
      callback=self.parse)] 

Je suis sûr que Scrapy pourrait faire ce que vous vouloir faire.

Questions connexes