2017-01-24 4 views
0

Je souhaite répertorier les collocations telles que rapportées par le NLTK pour Dracula.txt. Comment puis-je faire cela? Je suis capable de trouver la fréquence des mots en l'ajoutant à mon corpus. J'ai aussi une variable DracWords dracWords = mycorpus.words('Dracula.txt') qui a les mots du texte de Dracula. De ceci je peux faire des distributions de fréquence, mais ce que je veux maintenant est d'énumérer les collocations de lui.Liste des collocations pour un fichier txt

Toute aide est appréciée.

+0

où est votre code? –

+0

Copie possible de [Comment trouver des collocations dans le texte, python] (http://stackoverflow.com/questions/4128583/how-to-find-collocations-in-text-python) – DyZ

+0

nah celui-ci l'obtient d'un txt ajouté au corpus déjà. –

Répondre

0

Merci à tous. a pu l'obtenir avec

nltk.Text(mycorpus.words('Dracula.txt')).collocations() 
1

Vous pouvez essayer ceci:

from collections import Counter 

text = 'List the collocations for a txt file' 
words = text.split() 
nextword = iter(words) 
next(nextword) 

print(Counter(zip(words, nextword))) 

Et vous obtiendrez:

Counter({('txt', 'file'): 1, ('List', 'the'): 1, ('collocations', 'for'): 1, ('for', 'a'): 1, ('the', 'collocations'): 1, ('a', 'txt'): 1}) 

Hope this helps.