J'essaie de lemmater des mots dans un texte. Comme par exemple 'décapés' devrait se tourner vers 'cornichon', 'couru' à 'run', 'raisins secs' à 'raisin sec', etc.Le lemmatiseur wordnet de Nltk ne lemme pas tous les mots
J'utilise WordNet Lemmatizer
de NLTK comme suit:
from nltk.stem import WordNetLemmatizer
>>>
>>> lem = WordNetLemmatizer()
>>> print(lem.lemmatize("cats"))
cat
>>> print(lem.lemmatize("pickled"))
pickled
>>> print(lem.lemmatize("ran"))
ran
Ainsi, comme vous pouvez le voir pour 'pickled'
et 'ran'
, la sortie ne se produit pas comme prévu. Comment obtenir 'pickle'
et 'run'
pour ceux-ci sans avoir à spécifier 'v'
(verbe) etc pour les mots.
Que diriez-vous [POS tagging] (http://www.nltk.org/api/nltk.tag.html#nltk.tag.pos_tag)? – lenz