2009-11-24 4 views
0

J'essaie de trouver la meilleure méthode pour collecter des URL, je pourrais créer mon propre petit robot mais il faudrait des décennies à mes serveurs pour explorer tout Internet et la bande passante requise serait énorme. L'autre idée serait d'utiliser l'API de recherche de Google ou l'API de recherche de Yahoo, mais ce n'est pas vraiment une bonne solution car elle nécessite une recherche avant d'obtenir des résultats.Quelle est la meilleure méthode pour capturer des URL?

D'autres réflexions incluent de demander aux serveurs DNS et de demander une liste d'URL, mais les serveurs DNS peuvent limiter/limiter mes demandes ou même me bannir tous ensemble. Ma connaissance des serveurs DNS est assez limitée pour l'instant, donc je ne sais pas si c'est la meilleure méthode ou non. Je veux juste une liste massive d'URL, mais je veux construire cette liste sans courir dans les murs de briques dans le futur. Des pensées?

Je commence ce projet pour apprendre Python mais cela n'a vraiment rien à voir avec la question.

+0

Assez drôle question - vous voulez des données libres dans de grands volumes. Quel "mur de briques" prévoyez-vous à l'avenir? –

+0

En outre, vous devez être clair sur ce que vous entendez par URL. Une URL, par exemple, est http://stackoverflow.com/questions/1787414/whats-the-best-method-to-capture-urls/1787434. Je ne prévois pas que vous ou quelqu'un d'autre découvrira 99% des URL existantes sur le Web. Voulez-vous dire, peut-être, les noms de domaine? – Dathan

+0

@ S.Lott - les murs de briques se réfèrent à des méthodes qui ne me donnent pas vraiment toutes les URL disponibles dans le monde –

Répondre

0

Vous pouvez vous inscrire pour accéder à l'ensemble .com et .net fichiers de zone à Verisign

Je n'ai pas lu les petits caractères pour les conditions d'utilisation, et je ne sais pas combien (si quelque chose) il en coûte. Cependant, cela vous donnerait une énorme liste des domaines actifs à utiliser comme URL.

+0

Génial, cela m'aide pour .com, .net et .name. Je vais devoir regarder dans d'autres pays. –

2
$ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip 
+0

Bien que ce soit une quantité substantielle, il ne fournit pas de potentiels pour atteindre mon objectif final de 99% des URL d'Internet. Mais merci beaucoup! –

0

Quelle est la taille de la masse? Un bon point de départ est http://www.alexa.com/topsites. Ils proposent un téléchargement des 1 000 000 premiers sites (selon leur mécanisme de classement). Vous pouvez ensuite développer cette liste en accédant à Google et en extrayant les résultats de la requête link: url pour chaque URL de la liste.

+0

J'aime votre idée mais cela ne me promet pas toutes les URL disponibles. –

+0

Greedy, beaucoup? Rien ne promet toutes les URL disponibles. J'ai des URL privées sur mon site personnel qui ne sont pas liées à aucun site sur le Net; comment allez-vous découvrir ces URL? Ceci est juste un bon point de départ - vous aurez besoin d'employer de l'ingéniosité et de la graisse au coude pour construire votre collection à partir de là. – Dathan

+0

@Dathan vrai mais beaucoup de gens ont déjà fait le travail (comme Google) alors pourquoi réinventer la roue? S'il n'y a pas de solution appropriée, je pourrais avoir à explorer Internet avec mon propre robot. –

0

les termes modernes sont maintenant URI et URN, l'URL est rétrécie/obsolète. Je voudrais le recherche sitemap fichiers qui contiennent de nombreuses adresses dans un fichier et d'étudier le texte classique et spiders, wanderes, brokers and botsRFC 3305 (annexe b. p 50) définissant URI regex

+0

Vérifiez vos définitions, je suis après les sites Web après tout.;) J'ai examiné l'exploration, mais je n'ai pas les ressources ou la bande passante disponible pour faire un travail sérieux. –

+0

define "definition" –

+0

From IBM --------- Uniform Resource Identifier (URI) Une adresse unique utilisée pour identifier le contenu sur le Web, comme une page de texte, une vidéo ou un son clip, une image fixe ou animée, ou un programme. La forme la plus courante d'URI est l'adresse de la page Web, qui est une forme particulière ou un sous-ensemble d'URI appelé URL (Uniform Resource Locator). Un URI décrit généralement comment accéder à la ressource, l'ordinateur qui contient la ressource et le nom de la ressource (un nom de fichier) sur l'ordinateur. .... Je ne veux pas FTP, SMTP et ainsi de suite .... –

Questions connexes