2011-12-20 3 views
0

Je souhaite supprimer des éléments spécifiques de la réponse de la page, avant de la transmettre à nutch. Plus précisément, je veux marquer des parties de mes pages avec à savoirApache nutch: Manipulation du DOM avant l'analyse

<div class="noindex">I shall not be indexed</div> 

et que vous voulez les supprimer avant nutch Parse, de sorte que « je ne serai pas indexé » est pas présent dans le NutchDocument après. Je prévois mourir entourer ma navigation, l'en-tête, le contenu de pied de page avec ceci parce que maintenant, ils sont présents dans chaque document dans l'index.

Merci, Paul

Répondre

3

Vous avez des Alternativer pour le faire: