La meilleure façon de stocker un grand nombre d'urls pour crawler

J'écris un crawler construit sur mesure, et j'ai besoin de savoir si une URL spécifique est explorée ou non, donc je n'ajouterai pas la même URL deux fois. En ce moment j'utilise mysql pour stocker les valeurs de hachage de chaque URL. Mais je me demande si cela peut devenir très lent si j'ai un grand nombre d'URL, disons des centaines de millions.La meilleure façon de stocker un grand nombre d'urls pour crawler

Existe-t-il d'autres moyens de stocker des URL? Est-ce que les gens utilisent la lucene pour faire ça? Ou existe-t-il une structure de données spécifique pour le faire?

Source

2010-07-26 user402057

Vous n'avez pas spécifié votre plate-forme de développement, mais il est vraiment une bonne structure de données appelée Trie (http://en.wikipedia.org/wiki/Trie) il y a beaucoup de mise en œuvre sur java, C++, C# ...

Source

2010-07-26 08:47:10 Dewfy

J'utilise java pour le robot. – user402057

http://stackoverflow.com/questions/623892/where-do-i-find-a-standard-trie-based-map-implementation-in-java Décrire où vous pouvez obtenir la mise en œuvre – Dewfy

vous pouvez essayer BerkeleyDB

Source

2010-07-26 08:47:33 ced

c'est trop tard! mais vous pouvez utiliser un ram db system par exemple memcached

Source

2011-07-05 07:07:43 ehsan

La meilleure façon de stocker un grand nombre d'urls pour crawler

Répondre

Questions connexes