J'utilise Nutch 2.1 intégré avec MySQL. J'avais rampé 2 sites et Nutch les a explorés avec succès et stocké les données dans le Mysql. J'utilise Solr 4.0.0 pour la recherche.Comment recrawle nutch
Maintenant, mon problème est, lorsque je tente de re-crawl certains site comme trailer.apple.com ou tout autre site, il est toujours ramper la dernière rampé urls. Même j'ai supprimé les dernières URL explorées du fichier seeds.txt et entré les nouvelles URL. Mais Nutch ne rampe pas les nouvelles Urls.
Quelqu'un peut-il me dire, ce fait que je fais mal.
s'il vous plaît aussi me suggérer un plugin Nutch qui peut aider pour l'exploration des vidéos et des sites de films.
Toute aide sera vraiment appréciable.
Je résolu le problème. Dans /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt et dans /root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt je supprimer tout le espaces avant les domaines. avant: # accepter rien d'autre ^ http: // ([a-z0-9] *.) Www.domain02.com/sport/ ^ http: // ([a-z0-9].) * www.domain03.com/sport/ après: # accepter quoi que ce soit d'autre ^ http: // (. [a-z0-9] *) www.domain02.com/sport/~~V~~3rd ^ http: // ([a-z0-9].) * www.domain03.com/sport/ Maintenant, nutch explore les nouvelles URL. –