Nutch regex pour crawl

J'utilise Apache Nutch pour explorer la page Web. Je veux ramper la page Web quand je recherche un nom particulier comme si je recherche des portes de billard je veux obtenir les résultats des liens de ce résultat de recherche. J'ai l'URL commeNutch regex pour crawl

www.mysite.com/search?name=bill+gates

mais en rampant il n'affiche plus d'URL à chercher. en fait, il ne va pas chercher de résultats.

Existe-t-il une option pour explorer cette page? J'ai ajouté dans regex-urlfilter.txt pour tout accepter. Comment explorer le lien? Merci d'avance.

Source

2013-05-23 muthu

Dans ma mémoire nutch a un paramètre supplémentaire pour couper les paramètres url comme? Q = bill + portes. Je pense que ce paramètre est situé dans automate-urlfilter.txt:

# skip URLs containing certain characters as probable queries, etc. 
-.*[?*[email protected]=].*

Vous devez changer cette ligne.

J'espère que je pourrais vous aider

Source

2013-05-23 10:53:57 shadow

J'ai parcouru la page où seront stockés les liens? – muthu

Les liens sont stockés dans un dossier appelé linkdb. Nutch génère trois dossiers: crawldb, linkdb et segments. Jetez un oeil à cette page pour de l'aide: http://wiki.apache.org/nutch/NutchTutorial – shadow

oui. Si je veux aller chercher tous les liens signifie que je dois lire le linkdb à droite? – muthu

Nutch regex pour crawl

Répondre

Questions connexes