2009-02-18 7 views
0

IBM a apparemment ouvert son code source ICU pour la prise en charge d'Unicode et de la globalisation, dont une partie est un localisateur de limite de texte permettant de détecter les ruptures dans le texte. Cependant, la détection de rupture repose sur des règles et je ne peux pas localiser les fichiers de règles n'importe où.Le fichier de règles de rupture de mot

Où puis-je obtenir les fichiers texte des règles de rupture de mot pour com.ibm.icu.text.BreakIterator et com.ibm.icu.text.RuleBasedBreakIterator?

+0

hein? tu m'as perdu là-bas. Que diriez-vous d'un peu de contexte sur ce que c'est, peut-être mis dans des balises pertinentes? – Yuval

+0

Ce n'est pas une vraie question. Eh bien, c'est le cas, mais il faut vraiment plus de fond pour que nous sachions de quoi vous parlez. – SCdF

Répondre

2

http://www.icu-project.org/ contient tout le code source pour icu4j qu'IBM a publié sous une licence open source. Cela inclut les éléments d'analyse des limites comme les itérateurs de rupture basés sur les dictionnaires et les règles.

Cependant, il ne semble pas y avoir de fichier texte adapté à la lecture. Je ne suis pas sûr qu'IBM aurait publié son jeu de règles en open source (puisque c'est un avantage technologique assez important pour eux). Au lieu de cela, l'idée est de créer votre propre jeu de règles, dont un tutoriel est here.

Ce même état que tutoriel vous pouvez vider les règles par défaut en exécutant:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator) 
    BreakIterator.getWordInstance(Locale.getDefault()); 
String defaultRules = rbbi.toString(); 
Questions connexes