J'ai joué avec http://corenlp.run/ et j'ai remarqué qu'il est sensible à la casse. Par exemple, il marque "i" comme FW contre "I" comme PRP. Puis-je l'entraîner pour ignorer le cas? Plus généralement, comment puis-je m'entraîner pour des phrases mal formées?Can Stanford Parser ignore le cas?
1
A
Répondre
1
CorenNLP a des modèles insensibles à la casse que vous pouvez utiliser pour l'anglais seulement. Ils les appellent caseless models. Lisez l'avertissement là-bas si vous utilisez la version 3.6.0
Quelques points mentionnés dans le lien:
- Vous pouvez régler le cas des lettres dans votre texte et utilisez les modèles normaux. Vous pouvez utiliser
TrueCaseAnnotator
pour cela. Pour former votre propre cas des modèles peu sensibles CoreNLP vous pouvez spécifier un préprocesseur jeton qui ignore la casse
wordFunction = edu.stanford.nlp.process.LowercaseFunction