2015-09-21 1 views
0

J'utilise la PNL StanfordCore Library pour mon project.It utilise pour TBP Tokenizer tokenization.For une déclaration qui va comme this- go to room no. #2145 ouComment définir les délimiteurs pour tokenizer PTB?

go to room no. *2145 

est tokenizer division # 2145 en deux jetons: # 2145 . Est-il possible de paramétrer le tokenizer pour qu'il n'identifie pas #, * comme un délimiteur?

Répondre

1

Une solution rapide est d'utiliser cette option:

(command-line) -tokenize.whitespace 
(in Java code) props.setProperty("tokenize.whitespace", "true"); 

Cela entraînera le tokenizer juste tokenize sur l'espace blanc. Avez-vous besoin de faire autre chose que de marquer les espaces blancs?

+0

J'ai essayé cela auparavant. Cela ne fonctionne que lorsque nous avons une phrase à marquer. Si le texte d'entrée est quelque chose comme - "aller à la pièce * 2005.Pick up un stylo." Il identifie "* 2005pick" comme un seul jeton – AV94