2013-05-23 10 views
0

J'utilise Apache Nutch pour explorer la page Web. Je veux ramper la page Web quand je recherche un nom particulier comme si je recherche des portes de billard je veux obtenir les résultats des liens de ce résultat de recherche. J'ai l'URL commeNutch regex pour crawl

www.mysite.com/search?name=bill+gates 

mais en rampant il n'affiche plus d'URL à chercher. en fait, il ne va pas chercher de résultats.

Existe-t-il une option pour explorer cette page? J'ai ajouté dans regex-urlfilter.txt pour tout accepter. Comment explorer le lien? Merci d'avance.

Répondre

1

Dans ma mémoire nutch a un paramètre supplémentaire pour couper les paramètres url comme? Q = bill + portes. Je pense que ce paramètre est situé dans automate-urlfilter.txt:

# skip URLs containing certain characters as probable queries, etc. 
-.*[?*[email protected]=].* 

Vous devez changer cette ligne.

J'espère que je pourrais vous aider

+0

J'ai parcouru la page où seront stockés les liens? – muthu

+0

Les liens sont stockés dans un dossier appelé linkdb. Nutch génère trois dossiers: crawldb, linkdb et segments. Jetez un oeil à cette page pour de l'aide: http://wiki.apache.org/nutch/NutchTutorial – shadow

+0

oui. Si je veux aller chercher tous les liens signifie que je dois lire le linkdb à droite? – muthu