J'utilise Nutch et je voudrais indexer un intranet, mais comment s'assurer que tout sur l'intranet sera indexé?Index tout l'intranet avec nutch
Merci.
J'utilise Nutch et je voudrais indexer un intranet, mais comment s'assurer que tout sur l'intranet sera indexé?Index tout l'intranet avec nutch
Merci.
Si vous connaissez toutes les URLs de l'intranet, alors écrivez un fichier robots.txt (ou une page équivalente avec toutes les URLs et pointez le robot). Si vous ne le faites pas, vous ne pouvez jamais être sûr que vous aurez exploré toutes les URL, car vous ne pouvez pas le vérifier après l'exploration.
Dans le dernier cas, la meilleure chance est de faire le crawl à la profondeur maximale.
Cordialement