2015-03-11 1 views
0

En plus du corpus fourni avec nltk, je veux l'entraîner avec mon propre corpus qui suit la même partie des règles de la parole. Comment puis-je trouver le corpus utilisé et comment puis-je ajouter mon propre corpus (en plus, pas en remplacement)?Modification du corpus NLTK

EDIT: Voici le code que je suis actuellement en utilisant:

inpy = raw_input("$") 
text = nltk.word_tokenize(inpy) 
d = nltk.pos_tag(text) 

Répondre

0

NLTK est livré avec un grand nombre de différents corpus. Cela aiderait si vous spécifiez plus en détail quel corpus vous voulez augmenter. Le principal corpus de POS anglais en NLTK est le Brown corpus. Voir aussi http://www.nltk.org/book/ch05.html ainsi que http://en.wikipedia.org/wiki/Brown_Corpus et http://www.nltk.org/nltk_data/

+0

J'utilise les tags UPenn (je crois que je ne suis pas sûr à 100%). Je ne veux pas les augmenter mais ajouter un corpus de sorte que quand il forme son classificateur, il peut être plus précis. – Greencat

+0

Ensuite, c'est probablement le fragment de la Penn Treebank; # 17 du dernier lien. Vous pourriez alors être mieux de le remplacer entièrement parce qu'il est plutôt vieux et graveleux; google pour les corpus treebank anglais. – tripleee

+0

http://stackoverflow.com/questions/8949517/is-there-any-treebank-for-free et https://catalog.ldc.upenn.edu/LDC2012T13 parmi les meilleurs résultats Google. – tripleee