2017-09-26 4 views
1

Je veux construire des corpus pos tagged avec NLTK. Alors que je peux former mon modèle basé dessus.créer corpus pos tagué avec NLTK

Jusqu'à présent, j'ai mentionné de nombreuses sources, mais chacun simplement expliquer à la façon de lire votre corpus étiqueté et lecture de mots, des phrases, etc. Voici un morceau de code que j'ai essayé:

from nltk.corpus.reader import TaggedCorpusReader 
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos') 
reader.words() 
reader.tagged_words() 
reader.sents() 

Je veux inclure mon corpus dans le dossier home/nltk_data/corpora/ afin que je puisse importer le corpus que j'ai créé. S'il vous plaît me guider.

Répondre

1

J'ai obtenu la solution de travail pour cela: Veuillez vous référer à link pour la procédure étape par étape.

Télécharger les fichiers nécessaires pour le même à partir de here. Une fois que vous suivez les commandes de 1, le fichier pickle sera généré et ceci est votre corpus étiqueté.

Une fois que le fichier cornichon est généré, vous pouvez vérifier si votre tagger fonctionne bien en exécutant morceau de code suivant:

import nltk.data 
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle") 
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])