J'ai Solr avec base de données indexée. Dans ma base de données, toutes les données sont en letton. Le problème est, je dois être capable de rechercher le mot Riga comme si c'était le mot Rīga. Bien sûr, je peux définir le synonyme - Rīga = Riga, mais puis-je définir, cette lettre ī est la lettre i? J'ai lu quelque chose à propos de solr.ISOLatin1AccentFilterFactory, mais pour autant que j'ai compris, ce n'est pas pour l'encodage UTF-8, non? Des conseils?Solr - substitution de caractères
Répondre
Utilisé PatternReplaceFilterFactory avec index et requête. Ça semble fonctionner correctement.
ISOLatin1AccentFilterFactory est exactement ce que vous cherchez ... tant que l'accent EXISTS dans le jeu de caractères latin-1 (7 bits inférieurs de UTF-8 sont identiques à latin-1). Le ī que vous avez mentionné ne semble pas exister dans ISO-8859-1, donc ISOLatin1AccentFilterFactory ne fonctionnera pas dans ce cas SPÉCIFIQUE. Je recommande toujours que vous utilisez ISOLatin1AccentFilterFactory en plus des exceptions que vous prenez soin d'utiliser PatternReplaceFilterFactory comme il y a probablement quelques caractères lettons qu'il aide (en supposant, je n'ai pas d'expérience avec la Lettonie)
Pour votre information, je a effectivement essayé le contre mon installation de Solr avec ISOLatin1AccentFilterFactory et cela n'a pas aidé ce cas.
Regardez ICUTokenizerFactory qui fournit la normalisation de caractères Unicode. Extrêmement utile et très facile.
http://lucene.apache.org/solr/api/org/apache/solr/analysis/ICUTokenizerFactory.html
- 1. Solr TermsComponent: Utilisation de caractères génériques
- 2. substitution de paramètres Python SQLite avec des caractères génériques dans
- 3. SOLR - recherche de caractères génériques avec lettre majuscule
- 4. Unix - substitution
- 5. Substitution de chaînes IP
- 6. caractères d'échappement pour la substitution dans un fichier PDF
- 7. Les champs 'texte' Solr n'acceptant pas les caractères génériques
- 8. Substitution de chaînes python
- 9. Entier Clé de substitution?
- 10. Inplace substitution de ConfigParser
- 11. Substitution de ResourceManager GetResourceFileName
- 12. Opérateur de substitution C#
- 13. Substitution de OnPaint
- 14. haskell de substitution regex
- 15. substitution de chaîne vim
- 16. Substitution de délégué.ToString()
- 17. Substitution de propriété
- 18. Paires de substitution Unicode
- 19. Substitution regex
- 20. Problème d'indexation de Solr
- 21. Solr performances de pagination
- 22. Substitution de AuthenticationProcessingFilter de Spring
- 23. solr spellchecker
- 24. $ substitution de macro - limitations ExpandString
- 25. Schéma XML: groupes de substitution
- 26. perl plusieurs lignes de substitution
- 27. Bash reg-exp de substitution
- 28. ActiveRecord SQL substitution de variable
- 29. Substitution de polices dans Ghostscript
- 30. Substitution de la validation jQuery