2009-06-28 11 views
2

Je voudrais générer une liste d'URL pour un domaine mais je préfère économiser de la bande passante en n'abordant pas le domaine moi-même. Alors, existe-t-il un moyen d'utiliser les données crawlées existantes?Comment obtenir la liste des URL pour un domaine

Une solution que je pensais serait de faire un Yahoo site search, ce qui me permet de télécharger les 1000 premiers résultats au format TSV. Cependant, pour obtenir tous les enregistrements, je devrais gratter les résultats de la recherche. Google prend également en charge la recherche de site mais n'offre pas un moyen facile de télécharger les données. Pouvez-vous imaginer une meilleure façon de travailler avec la plupart des sites Web (si ce n'est tous)?

merci, Richard

Répondre

0

il n'y a pas Semble royale façon de crawling web, donc je vais juste coller à mon approche actuelle ...

J'ai aussi trouvé la plupart des moteurs de recherche n'exposent les 1000 premiers résultats de toute façon.

1

Certains webmasters offrent Sitemaps, qui sont essentiellement des listes XML de chaque URL sur le domaine. Cependant, il n'y a pas de solution générale sauf rampe. Si vous utilisez un robot d'exploration, veuillez obéir à robots.txt.

+1

Malheureusement la plupart des sites que j'ai consultés ne les utilisent pas. J'espère utiliser les résultats d'un autre robot au lieu de ramper moi-même. – hoju

+0

Je ne suis pas d'accord qu'il existe au moins une solution générale, que j'ai expliqué utilise les résultats crawlés d'un moteur de recherche. Ceci est fait en utilisant le site: foo.org. – hoju

+0

Richard, les moteurs de recherche n'indexent pas tous les domaines, et leurs listes n'incluent pas toutes les pages des domaines qu'ils indexent. C'est pourquoi le site: foo.org n'est pas une solution générale. –

3

Vous pouvez télécharger une liste de 500 URL gratuits grâce à cet outil en ligne:

XML Sitemap Generator

... Il suffit de sélectionner « Liste de texte » après que l'outil exploration de votre site.

Questions connexes