2017-07-29 3 views

Répondre

0

On peut le faire de cette façon:

Reader reader = new StringReader(paragraphText); 
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain); 

TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory(); 
factory.setOptions("untokenizable=noneDelete"); 
documentPreprocessor.setTokenizerFactory(factory); 

D'ici: https://github.com/stanfordnlp/CoreNLP/issues/103#issuecomment-157793500

1

Si vous travaillez directement avec un Tokenizer, la réponse Denis Kulagin donne est bon; si vous travaillez au niveau supérieur d'un pipeline StanfordCoreNLP, vous pouvez simplement donner la propriété (ou une option en ligne de commande équivalente):

tokenize.options = untokenizable=noneDelete 

(supprimer en silence tous les caractères inconnus) ou de les garder en silence:

tokenize.options = untokenizable=noneKeep