Stanford NLP: comment désactiver les avertissements?

problèmes de pipeline PNL Stanford beaucoup d'avertissements particulièrement inquiétants dans la configuration de production:Stanford NLP: comment désactiver les avertissements?

WARN Untokenizable: � (U+FFFD, decimal: 65533)

Est-il possible de les désactiver?

Source

2017-07-29 Denis Kulagin

On peut le faire de cette façon:

Reader reader = new StringReader(paragraphText); 
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain); 

TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory(); 
factory.setOptions("untokenizable=noneDelete"); 
documentPreprocessor.setTokenizerFactory(factory);

D'ici: https://github.com/stanfordnlp/CoreNLP/issues/103#issuecomment-157793500

Source

2017-07-29 09:09:22

Si vous travaillez directement avec un Tokenizer, la réponse Denis Kulagin donne est bon; si vous travaillez au niveau supérieur d'un pipeline StanfordCoreNLP, vous pouvez simplement donner la propriété (ou une option en ligne de commande équivalente):

tokenize.options = untokenizable=noneDelete

(supprimer en silence tous les caractères inconnus) ou de les garder en silence:

tokenize.options = untokenizable=noneKeep

Source

2017-07-29 22:42:16

Stanford NLP: comment désactiver les avertissements?

Répondre

Questions connexes