J'utilise Apache Nutch pour explorer la page Web. Je veux ramper la page Web quand je recherche un nom particulier comme si je recherche des portes de billard je veux obtenir les résultats des liens de ce résultat de recherche. J'ai l'URL commeNutch regex pour crawl
www.mysite.com/search?name=bill+gates
mais en rampant il n'affiche plus d'URL à chercher. en fait, il ne va pas chercher de résultats.
Existe-t-il une option pour explorer cette page? J'ai ajouté dans regex-urlfilter.txt pour tout accepter. Comment explorer le lien? Merci d'avance.
J'ai parcouru la page où seront stockés les liens? – muthu
Les liens sont stockés dans un dossier appelé linkdb. Nutch génère trois dossiers: crawldb, linkdb et segments. Jetez un oeil à cette page pour de l'aide: http://wiki.apache.org/nutch/NutchTutorial – shadow
oui. Si je veux aller chercher tous les liens signifie que je dois lire le linkdb à droite? – muthu