2010-07-16 8 views
2

Je souhaite sélectionner l'un des éléments ci-dessus pour créer un cadre d'analyse pour des sites Web spécifiques. Ce n'est pas une exploration à l'échelle de l'Internet. Je ne construis pas d'index de recherche, et je suis plutôt intéressé à extraire des pages spécifiques du site web.Donner une comparaison de Nutch Vs Heritrix

Quelqu'un pourrait-il détailler les avantages et les inconvénients de ce qui précède? Merci Nayn

+0

Plus précisément, je m'intéresse au web mining plutôt qu'à l'index de recherche. Je sais où réside l'information sur le site Web cible et je veux l'explorer pour la même chose. – Nayn

Répondre

-1

Votre tâche principale consiste à extraire des pages spécifiques du site Web.

Nutch: logiciel web recherche open-source, construit sur Lucene Java

Heritrix: est le projet web crawler open-source, extensible, échelle du Web, des archives qualité Internet Archive

Donc, je pense que Heritrix est beaucoup mieux que Nutch pour votre projet.

L'apprentissage d'une structure/bibliothèque est un exercice utile. Mais cela prend du temps. Puisque votre tâche n'est pas très complexe, il serait parfois moins pénible d'écrire un simple crawler à partir de zéro en Java

+0

Comme je l'ai mentionné, je ne suis pas intéressé à créer un index des pages. Je veux effectuer une exploration dirigée (c'est-à-dire, des liens (regex) à suivre à chaque profondeur) et mettre en cache les pages du dernier niveau. Ensuite, j'utiliserais grattage sur les pages en cache pour aller chercher des données de mon intérêt. Je n'ai pas besoin de faire une analyse complète du site Web. – Nayn

+1

J'accepte cette réponse puisque personne d'autre n'a trouvé quoi que ce soit. Mais je pars loin de Nutch et Heritrix et en utilisant Bixo pour mon cas d'utilisation. Merci – Nayn

+0

Ceci est la réponse très peu claire, aucune comparaison réelle faite .... – OBender