J'ai un corpus de paroles de chansons indiennes et j'ai besoin de les marquer avec leur année de sortie pour une expérience sur laquelle je travaille.Comment explorer des liens vers un domaine particulier en effectuant une recherche sur Google?
Il ya un site web (lyricsindia.net), qui a une base de données exhaustive de ces paroles avec des années, mais malheureusement, les paroles ne peuvent être recherchées sur le site. Au lieu de cela, quand je google avec une partie des paroles comme chaîne de recherche, le lien vers la chanson sur lyricsindia.net est toujours dans le top 10 des résultats.
Maintenant, je me demandais s'il était possible d'utiliser des frameworks d'exploration Web comme scrapy pour utiliser une chaîne de recherche comme point de départ pour l'exploration. Chaque tutoriel Scrapy que j'ai rencontré commence par une URL de départ.