2017-02-03 1 views
-1

J'ai essayé d'améliorer le tagger POS sur le NLTK pendant quelques jours, mais je ne peux pas le comprendre. À l'heure actuelle, le tagueur par défaut est vraiment inexact et balise la plupart des mots comme «NN». Comment puis-je améliorer le tagger pour le rendre plus précis? J'ai déjà cherché à former le tagueur, mais je n'arrive pas à le faire fonctionner.Python NLTK PoS Tag inexact

Est-ce que quelqu'un a une méthode simple pour cela? Merci beaucoup.

Répondre

1

Est-ce que vous le faites un mot à la fois ou dans un grand corpus? Habituellement, les algorithmes de marquage POS utilisent la probabilité que le mot soit un type de tag, par exemple "NN", mais ils utilisent également le contexte de la phrase environnante pour prédire que plus il y aura de mots, plus il sera vraisemblable.

Vous pouvez également essayer avec différents marquages ​​Unigram, bigram, trigram, etc. pour essayer d'obtenir une plus grande précision au détriment des performances. Vous pouvez lire à ce sujet ici: http://www.nltk.org/book/ch05.html