2008-09-15 5 views
14

Lucene a un support assez pauvre pour la langue russe.Analyseur pour la langue russe dans Lucene et Lucene.Net

RussianAnalyzer (partie de lucene-contrib) est de très mauvaise qualité.

Le module RussianStemmer pour Snowball est encore pire. Il ne reconnaît pas le texte russe dans les chaînes Unicode, supposant apparemment qu'un mélange bizarre d'Unicode et de KOI8-R doit être utilisé à la place.

Connaissez-vous de meilleures solutions?

Répondre

0

C'est la beauté de l'open source. Vous avez le code source, donc si les implémentations actuelles ne fonctionnent pas pour vous, vous pouvez toujours créer les vôtres ou mieux, étendre les existantes. Un bon début serait le livre "Lucene in Action".