Modification du corpus NLTK

En plus du corpus fourni avec nltk, je veux l'entraîner avec mon propre corpus qui suit la même partie des règles de la parole. Comment puis-je trouver le corpus utilisé et comment puis-je ajouter mon propre corpus (en plus, pas en remplacement)?Modification du corpus NLTK

EDIT: Voici le code que je suis actuellement en utilisant:

inpy = raw_input("$") 
text = nltk.word_tokenize(inpy) 
d = nltk.pos_tag(text)

Source

2015-03-11 Greencat

NLTK est livré avec un grand nombre de différents corpus. Cela aiderait si vous spécifiez plus en détail quel corpus vous voulez augmenter. Le principal corpus de POS anglais en NLTK est le Brown corpus. Voir aussi http://www.nltk.org/book/ch05.html ainsi que http://en.wikipedia.org/wiki/Brown_Corpus et http://www.nltk.org/nltk_data/

Source

2015-03-11 20:30:03 tripleee

J'utilise les tags UPenn (je crois que je ne suis pas sûr à 100%). Je ne veux pas les augmenter mais ajouter un corpus de sorte que quand il forme son classificateur, il peut être plus précis. – Greencat

Ensuite, c'est probablement le fragment de la Penn Treebank; # 17 du dernier lien. Vous pourriez alors être mieux de le remplacer entièrement parce qu'il est plutôt vieux et graveleux; google pour les corpus treebank anglais. – tripleee

http://stackoverflow.com/questions/8949517/is-there-any-treebank-for-free et https://catalog.ldc.upenn.edu/LDC2012T13 parmi les meilleurs résultats Google. – tripleee

Modification du corpus NLTK

Répondre

Questions connexes