2012-12-14 5 views
2

J'utilise Nutch 2.1 intégré avec MySQL. J'avais rampé 2 sites et Nutch les a explorés avec succès et stocké les données dans le Mysql. J'utilise Solr 4.0.0 pour la recherche.Comment recrawle nutch

Maintenant, mon problème est, lorsque je tente de re-crawl certains site comme trailer.apple.com ou tout autre site, il est toujours ramper la dernière rampé urls. Même j'ai supprimé les dernières URL explorées du fichier seeds.txt et entré les nouvelles URL. Mais Nutch ne rampe pas les nouvelles Urls.

Quelqu'un peut-il me dire, ce fait que je fais mal.

s'il vous plaît aussi me suggérer un plugin Nutch qui peut aider pour l'exploration des vidéos et des sites de films.

Toute aide sera vraiment appréciable.

Répondre

1

Ce message est un peu désuet mais reste valable pour la plupart des parties: http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/ peut-être que ce sont les dernières pages crawlées qui changent le plus. Nutch utilise un algorithme pour planifier adaptatives analyse à nouveau, alors quand une page est très statique, il ne doit pas être réexploré très souvent. Vous pouvez remplacer la fréquence à laquelle vous souhaitez effectuer une nouvelle analyse à l'aide de nutch-site.xml. De plus, le fichier seed.txt est censé être une liste de départ, une fois que vous avez injecté les URL, Nutch ne l'utilise plus (sauf si vous l'injectez à nouveau manuellement)

Une autre configuration pouvant vous aider est votre regex- urlfilter.txt, si vous souhaitez pointer vers un endroit spécifique ou exclure certains domaines/pages, etc.

Cheers.

2

J'ai le même problème. Nutch ne ré-analyse que les anciennes URL, même si elles n'existent pas dans seed.txt.

première fois quand je commence nutch je fais ce qui suit:

  • Ajouter un domaine "www.domain01.com" dans/root/Desktop/apache-nutch 2.1/exécution/local/urls/semences. txt (sans les guillemets)

  • En /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt, ajouter une nouvelle ligne:

    # accepter quoi que ce soit d'autre
    ^ http : // ([a-z0-9] *.) * www.domain01.com/sport/

  • En /root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt, ajoutez la nouvelle ligne:

    # accepter quoi que ce soit d'autre
    ^ http: // ([a-z0- 9] *.) * Www.domain01.com/sport/

... et tout allait bien.

Ensuite, je fait les modifications suivantes:

  • Supprimer www.domain01.com de /root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txt et d'ajouter deux nouveaux domaines : www.domain02.com et www.domain03.com

  • Supprimez www.domain01.com de /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt et ajouter deux nouvelles lignes:

    # accepter quoi que ce soit d'autre
         ^http: // (. [a-z0-9] *) www.domain02.com/sport/
         ^http: // (. [a-z0-9]
    ) * www.domain03.com/sport/

  • Retirer www.domain01.com de /root/Desktop/apache-nutch-2.1/conf/ regex-urlfilter.txt et ajoutez deux nouvelles lignes:

    # accepter autre chose
         ^http: // ([a-z0-9] *.) www.domain02.com/sport/
         ^http: // ([a-z0-9]
    .) * www.domain03.com/sport/

Ensuite, j'exécuter les commandes suivantes:

updatedb 
bin/nutch inject urls 
bin/nutch generate urls 
bin/nutch updatedb 
bin/nutch crawl urls -depth 3 

Et nutch encore explorer le www.domain01.com

Je ne sais pas pourquoi? J'utilise Nutch 2.1 sur Debian Linux 6.0.5 (x64). Et linux est démarré sur une machine virtuelle sous Windows 7 (x64).

+1

Je résolu le problème. Dans /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt et dans /root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt je supprimer tout le espaces avant les domaines. avant: # accepter rien d'autre ^ http: // ([a-z0-9] *.) Www.domain02.com/sport/ ^ http: // ([a-z0-9].) * www.domain03.com/sport/ après: # accepter quoi que ce soit d'autre ^ http: // (. [a-z0-9] *) www.domain02.com/sport/~~V~~3rd ^ http: // ([a-z0-9].) * www.domain03.com/sport/ Maintenant, nutch explore les nouvelles URL. –

0

Il vous suffit d'ajouter ur nutch-site.xml ci-dessous. ça marche pour moi ,,,,,,, vérifierai ..........

<property> <name>file.crawl.parent</name> <value>false</value> </property

et u changer juste regex-urlfilter.txt

# fichier saut: ftp : et mailto: urls # -^(fichier | ftp | mailto):
# accepter autre chose +.

après supprimer ce manuel dir d'indexation ou de commande comme aussi .. rm -r $ NUTCH_HOME/indexdir

après courir ur crawl cammand ...........