J'essaie d'explorer environ un millier de sites Web, à partir desquels je m'intéresse uniquement au contenu html.Quel robot Web pour extraire et analyser les données d'environ un millier de sites Web?
Puis je transforme le code HTML en XML pour être analysé avec XPath pour extraire le contenu spécifique Je suis intéressé.
J'utilise crawler Heritrix 2.0 pour quelques mois, mais je suis tombé performance énorme problèmes de mémoire, de stabilité et de stabilité (Heritrix se bloque tous les jours, et aucune tentative avec les paramètres JVM pour limiter l'utilisation de la mémoire n'a réussi). D'après vos expériences sur le terrain, quel crawler utiliseriez-vous pour extraire et analyser le contenu de milliers de sources?
Merci, je me doutais de la version 2.0, mais depuis que nous avons fait du développement personnalisé j'avais un peu peur de le convertir en 1.14 juste pour découvrir que 1.14 ne fonctionne pas aussi. Maintenant, je suis plus confiant de faire la rétrogradation à 1,14. –
H2 est à peu près le pire choix possible. H3 est maintenant en version bêta et s'améliore alors que H1 est stable depuis des années. – Kris
J'ai détecté un motif ici, avec Heritrix 1.14 => 2.0 => 3.0. Nous pourrions le nommer "Le Xp => Vista => 7" motif d'un célèbre exemple contemporain :-) –