Je n'ai pas regardé Nutch depuis environ un an et on dirait que ça a beaucoup changé. La documentation sur la ré-analyse n'est pas claire. Quelle est la meilleure façon de mettre à jour un index Nutch existant?Quelle est la meilleure façon de rafraîchir un indice Nutch?
1
A
Répondre
2
Ce script est vaguement basé sur celui de la FAQ Nutch, qui ne fonctionne pas pour moi au début:
#!/bin/sh
#
# Automate crawling my site
#
crawldir=./crawl
urldir=./urls
NUTCH_HOME=${NUTCH_HOME:=.}
nutch=$NUTCH_HOME/bin/nutch
# Make sure the crawl directories exist
mkdir -p $crawldir/crawldb $crawldir/segments $crawldir/linkdb
# Inject the initial urls
$nutch inject $crawldir/crawldb $urldir
depth=1
while(true) ; do
echo "beginning crawl at depth $depth"
echo "-generate"
$nutch generate $crawldir/crawldb $crawldir/segments
if [ $? -ne 0 ] ; then
echo "finishing at depth $depth - no more urls"
break
fi
segment=`/bin/ls -rtd $crawldir/segments/*|tail -1`
echo "$nutch fetch $segment"
$nutch fetch $segment
if [ $? -ne 0 ] ; then
echo "fetch failed at depth $depth, deleting segment"
rm -rf $segment
continue;
fi
echo "$nutch updatedb $crawldir/crawldb $segment"
$nutch updatedb $crawldir/crawldb $segment
depth=`expr $depth + 1`
done
echo "$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*"
$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*
if [ $? -eq 0 ] ; then
rm -rf $crawldir/segments/*
mv $crawldir/MERGEDsegs/* $crawldir/segments
rmdir $crawldir/MERGEDsegs
else
echo "Something went wrong"
exit
fi
echo "$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments"
$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments
echo "$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb $crawldir/segments/*"
$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb \
$crawldir/segments/*
echo "$nutch dedup $crawldir/NEWindexes"
$nutch dedup $crawldir/NEWindexes
echo "$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes"
$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes
mv $crawldir/index $crawldir/OLDindexes
mv $crawldir/MERGEDindexes $crawldir/index
0
Nous utilisons nutch en combinaison avec solr. Notre indice Nutch est appr. 80 Mo environ 5000 sites Web. Jusqu'à présent, la meilleure façon de recibler est de supprimer l'index et de le créer à partir de zéro.
Questions connexes
- 1. Quelle est la meilleure façon de localiser un IEnumerable?
- 2. Quelle est la meilleure façon d'effacer un tableau de chaînes?
- 3. Quelle est la meilleure façon de déboguer un écrasement explorer.exe?
- 4. Quelle est la meilleure façon de chiffrer un clob?
- 5. Quelle est la meilleure façon de vider un répertoire?
- 6. Quelle est la meilleure façon de structurer un projet?
- 7. Quelle est la meilleure façon de déboguer un Oracle SP?
- 8. quelle est la meilleure façon de marquer un texte?
- 9. Quelle est la meilleure façon d'implémenter un délai AJAX?
- 10. Quelle est la meilleure façon d'enregistrer un RichTextFile en C#?
- 11. Quelle est la meilleure façon d'écrire dans un fichier Ruby?
- 12. Quelle est la meilleure façon de trouver l'inverse de datetime.isocalendar()?
- 13. Quelle est la meilleure façon de faire ce programme Java?
- 14. Quelle est la meilleure façon de lire les données CSV?
- 15. Quelle est la meilleure façon de lire GetResponseStream()?
- 16. Quelle est la meilleure façon de trier par date?
- 17. Quelle est la meilleure façon de diviser deux objets TimeSpan?
- 18. Quelle est la meilleure façon de tester les services WCF?
- 19. Quelle est la meilleure façon d'exposer l'API de mon serveur?
- 20. Quelle est la meilleure façon de commencer à utiliser Mylyn?
- 21. Quelle est la meilleure façon de gérer les exceptions ObjectDataSource?
- 22. Quelle est la meilleure façon de différencier Crystal Reports?
- 23. Quelle est la meilleure façon d'automatiser le remplacement de texte?
- 24. Quelle est la meilleure façon de gunzip fichiers avec Perl?
- 25. Quelle est la meilleure façon de démarrer avec Open Source?
- 26. Quelle est la meilleure façon de dupliquer fork() dans Windows?
- 27. Quelle est la meilleure façon de ReadLine par Expression Tree?
- 28. Quelle est la meilleure façon de créer des déploiements ClickOnce
- 29. Quelle est la meilleure façon de formater C# dans WordPress?
- 30. Quelle est la meilleure façon de commencer avec NHibernate?