2010-07-26 4 views
2

J'écris un crawler construit sur mesure, et j'ai besoin de savoir si une URL spécifique est explorée ou non, donc je n'ajouterai pas la même URL deux fois. En ce moment j'utilise mysql pour stocker les valeurs de hachage de chaque URL. Mais je me demande si cela peut devenir très lent si j'ai un grand nombre d'URL, disons des centaines de millions.La meilleure façon de stocker un grand nombre d'urls pour crawler

Existe-t-il d'autres moyens de stocker des URL? Est-ce que les gens utilisent la lucene pour faire ça? Ou existe-t-il une structure de données spécifique pour le faire?

Répondre

2

Vous n'avez pas spécifié votre plate-forme de développement, mais il est vraiment une bonne structure de données appelée Trie (http://en.wikipedia.org/wiki/Trie) il y a beaucoup de mise en œuvre sur java, C++, C# ...

+0

J'utilise java pour le robot. – user402057

+0

http://stackoverflow.com/questions/623892/where-do-i-find-a-standard-trie-based-map-implementation-in-java Décrire où vous pouvez obtenir la mise en œuvre – Dewfy

0

vous pouvez essayer BerkeleyDB

Questions connexes