2009-10-08 10 views
1

J'utilise une application de recherche sur un serveur FAST ESP. Maintenant, j'ai ce problème avec la normalisation des caractères.Normalisation rapide des caractères ESP

Ce que je veux, c'est rechercher «wurth» et obtenir un succès dans «würth».

J'ai essayé de configurer les éléments suivants dans esp/etc/tokenizer/tokenization.xml

<normalizationlist name="German to Norwegian"> 
    <normalization description="German u with diaeresis, to Norwegian u"> 
     <input>x75</input> 
     <output>xFC</output> 
     <output>x75</output> 
    </normalization> 
    </normalizationlist> 

mais cours, cela se traduit tout u ü, ce qui ne sert à rien.

Comment est-ce que je configure ceci de la bonne façon?

Répondre

1

La solution consiste à normaliser chaque "caractère spécial" au même "caractère normal";

ö -> o ø -> o å -> un a -> a æ -> un

Ceci est à peu long, mais ça marche!

0

Lisez le Guide logistique avancé. Il contient un chapitre sur la normalisation des caractères. Lorsque vous suivez les étapes du guide, tous les caractères spéciaux seront traités comme des caractères normaux. Donc, la recherche de über donnera les mêmes résultats que lors de la recherche de uber.

+2

ne vous voulez pas dire Advanced Linguistics Guide? – darasd

0

Vous pouvez également installer des dictionnaires personnalisés disponibles auprès du support MS, puis fournir le dictionnaire pour chaque langue. Donc, si vous installez l'allemand, le moteur de recherche comprendra ce que vous essayez de rechercher, avec la fonctionnalité voulue. Vous pouvez activer dans les requêtes de recherche une fois que vous avez installé le dictionnaire. N'oubliez pas de configurer correctement le schéma de recherche avec le codage de caractères approprié pour le support multilingue. Si les documents de la collection ne sont pas indexés avec un encodage de caractères correct, tout effort que vous faites à la tokenisation et à la fin de la requête est inutile.

Questions connexes