J'écris un crawler construit sur mesure, et j'ai besoin de savoir si une URL spécifique est explorée ou non, donc je n'ajouterai pas la même URL deux fois. En ce moment j'utilise mysql pour stocker les valeurs de hachage de chaque URL. Mais je me demande si cela peut devenir très lent si j'ai un grand nombre d'URL, disons des centaines de millions.La meilleure façon de stocker un grand nombre d'urls pour crawler
Existe-t-il d'autres moyens de stocker des URL? Est-ce que les gens utilisent la lucene pour faire ça? Ou existe-t-il une structure de données spécifique pour le faire?
J'utilise java pour le robot. – user402057
http://stackoverflow.com/questions/623892/where-do-i-find-a-standard-trie-based-map-implementation-in-java Décrire où vous pouvez obtenir la mise en œuvre – Dewfy