2013-04-16 1 views
1

Avec SOLR 4, comment indexer un document en texte brut avec du code HTML, sans que le code HTML ne soit effacé?SOLR 4 - comment indexer le texte brut html

exemple, <b>bold text</b> est transformé en bold text

Merci!

+0

Guruji s'il vous plaît partager votre db schema.xml. Je suis fatigué de chercher comment enlever/ignorer les balises html d'être indexé dans solr. – Ankit

Répondre

2

Le type de champ pour le champ dans lequel vous stockez votre document texte est probablement implémenté le solr.HTMLStripCharFilterFactory. Cela supprime les balises <b> </b> de votre document lorsqu'il est stocké dans l'index. Vous pouvez vérifier cela dans votre fichier schema.xml.

Vous devrez modifier le fieldType pour ce champ en supprimant ce CharFilterFactory ou en définissant un nouveau type de champ qui a été supprimé. Pour plus d'informations sur la configuration de votre schéma, reportez-vous aux ressources suivantes.

+0

Désolé, j'ai déjà essayé cela hier. Merci pour l'aide en tout cas! Je pense que le problème est avec Tika. –

+0

Oui, Solr Cell avec Tika ne conserve pas le formatage d'origine du document. http://stackoverflow.com/questions/14770605/can-solr-retain-the-formatting-of-the-html-documents-whcih-was-fed-to-it-in-it –

Questions connexes