J'essaie de trouver la meilleure méthode pour collecter des URL, je pourrais créer mon propre petit robot mais il faudrait des décennies à mes serveurs pour explorer tout Internet et la bande passante requise serait énorme. L'autre idée serait d'utiliser l'API de recherche de Google ou l'API de recherche de Yahoo, mais ce n'est pas vraiment une bonne solution car elle nécessite une recherche avant d'obtenir des résultats.Quelle est la meilleure méthode pour capturer des URL?
D'autres réflexions incluent de demander aux serveurs DNS et de demander une liste d'URL, mais les serveurs DNS peuvent limiter/limiter mes demandes ou même me bannir tous ensemble. Ma connaissance des serveurs DNS est assez limitée pour l'instant, donc je ne sais pas si c'est la meilleure méthode ou non. Je veux juste une liste massive d'URL, mais je veux construire cette liste sans courir dans les murs de briques dans le futur. Des pensées?
Je commence ce projet pour apprendre Python mais cela n'a vraiment rien à voir avec la question.
Assez drôle question - vous voulez des données libres dans de grands volumes. Quel "mur de briques" prévoyez-vous à l'avenir? –
En outre, vous devez être clair sur ce que vous entendez par URL. Une URL, par exemple, est http://stackoverflow.com/questions/1787414/whats-the-best-method-to-capture-urls/1787434. Je ne prévois pas que vous ou quelqu'un d'autre découvrira 99% des URL existantes sur le Web. Voulez-vous dire, peut-être, les noms de domaine? – Dathan
@ S.Lott - les murs de briques se réfèrent à des méthodes qui ne me donnent pas vraiment toutes les URL disponibles dans le monde –