1
J'ai rampé le site avec apache nutch et indexé à Apache Solr.i ne sais pas comment rechercher des chaînes entre et balises html dans un site avec solr? Mercicomment rechercher le tag html dans solr?
J'ai rampé le site avec apache nutch et indexé à Apache Solr.i ne sais pas comment rechercher des chaînes entre et balises html dans un site avec solr? Mercicomment rechercher le tag html dans solr?
Le moyen le plus simple consiste à extraire des données à partir des données HTML et des données extraites. Vous pouvez utiliser le HTMLStripCharFilterFactory pour supprimer le code HTML du flux d'entrée.
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>