2010-12-18 7 views
0

J'essaie d'exécuter une analyse en utilisant Nutch dans Eclipse.Liste de crawl vide Nutch

J'utilise un fichier appelé urls, et il contient

http://www.google.com/

Cependant, quand je lance le projet, la classe du générateur me dit que:

« 0 enregistrements sélectionnés pour aller chercher , en quittant "

Comment puis-je résoudre ce problème?

J'ai suivi ces documentations:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

Toute aide serait grandement apprécié.

Répondre

1

J'ai récemment rencontré ce problème et j'ai trouvé que la plupart des réponses concernaient le fichier (regex | crawl) -urlfiters.txt. Une autre chose à vérifier est vos paramètres '-topN'. Cela doit être assez grand pour que le générateur puisse passer tous les filtres.

J'espère que cela aide.

0

Il s'agit probablement de votre fichier regex-urlfilter.xml. Essayez d'utiliser cela et voir si elle résout le problème

-^(fichier | ftp | mailto):.

- (GIF | GIF | jpg | JPG | PNG | PNG | ico | js | ICO | doc | mp3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP)

-. * (/ [^ /] +)/[^ /] + \ 1/[^ /] + \ 1/

+.