La précision du test près de 70% n'est pas si mauvaise si vous avez des centaines de catégories. Vous pourriez vouloir mesurer la précision globale et rappeler au lieu de la précision. Ce que vous avez proposé sonne bien, ce qui est une approche pour ajouter des conjonctions de fonctionnalités en tant que fonctionnalités supplémentaires. Voici quelques suggestions:
Conservez toujours vos fonctions d'origine. C'est-à-dire ne pas remplacer love
par love_noun
ou love_verb
. Au lieu de cela, vous avez deux fonctionnalités à venir de love
:
love, love_noun (or)
love, love_verb
Si vous avez besoin d'un exemple de code, vous pouvez commencer à partir nltk
package python.
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("Love is a lovely thing"))
[('Love', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('lovely', 'JJ'), ('thing', 'NN')]
n-Pensez à utiliser grammes, à partir peut-être d'ajouter 2-grammes. Par exemple, vous pourriez avoir "dans" et "stock" et vous pourriez simplement supprimer "dans" parce que c'est un mot d'arrêt. Si vous considérez 2 grammes, vous obtiendrez une nouvelle fonctionnalité:
in-stock
qui a une signification différente de "stock". Dans certains cas, il peut être utile de distinguer, par exemple, «finance» et «shopping».