En plus du corpus fourni avec nltk, je veux l'entraîner avec mon propre corpus qui suit la même partie des règles de la parole. Comment puis-je trouver le corpus utilisé et comment puis-je ajouter mon propre corpus (en plus, pas en remplacement)?Modification du corpus NLTK
EDIT: Voici le code que je suis actuellement en utilisant:
inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)
J'utilise les tags UPenn (je crois que je ne suis pas sûr à 100%). Je ne veux pas les augmenter mais ajouter un corpus de sorte que quand il forme son classificateur, il peut être plus précis. – Greencat
Ensuite, c'est probablement le fragment de la Penn Treebank; # 17 du dernier lien. Vous pourriez alors être mieux de le remplacer entièrement parce qu'il est plutôt vieux et graveleux; google pour les corpus treebank anglais. – tripleee
http://stackoverflow.com/questions/8949517/is-there-any-treebank-for-free et https://catalog.ldc.upenn.edu/LDC2012T13 parmi les meilleurs résultats Google. – tripleee