Je voudrais générer une liste d'URL pour un domaine mais je préfère économiser de la bande passante en n'abordant pas le domaine moi-même. Alors, existe-t-il un moyen d'utiliser les données crawlées existantes?Comment obtenir la liste des URL pour un domaine
Une solution que je pensais serait de faire un Yahoo site search, ce qui me permet de télécharger les 1000 premiers résultats au format TSV. Cependant, pour obtenir tous les enregistrements, je devrais gratter les résultats de la recherche. Google prend également en charge la recherche de site mais n'offre pas un moyen facile de télécharger les données. Pouvez-vous imaginer une meilleure façon de travailler avec la plupart des sites Web (si ce n'est tous)?
merci, Richard
Malheureusement la plupart des sites que j'ai consultés ne les utilisent pas. J'espère utiliser les résultats d'un autre robot au lieu de ramper moi-même. – hoju
Je ne suis pas d'accord qu'il existe au moins une solution générale, que j'ai expliqué utilise les résultats crawlés d'un moteur de recherche. Ceci est fait en utilisant le site: foo.org. – hoju
Richard, les moteurs de recherche n'indexent pas tous les domaines, et leurs listes n'incluent pas toutes les pages des domaines qu'ils indexent. C'est pourquoi le site: foo.org n'est pas une solution générale. –