2016-03-30 2 views
1

J'essaie de former un modèle LSTM pour la classification des sentiments sur de courts textes tels que des critiques de produits et des tweets. Je suis à la recherche d'un kit d'apprentissage qui qualifie positif/négatif/neutre, y a-t-il une chose (gratuite pour la recherche) qui soit vraiment basée sur des tags humains et non sur des démarrages ou des émoticônes? Je n'ai trouvé que de petits ensembles d'entraînement qui m'ont conduit à des résultats médiocres. Iv'e a essayé d'augmenter la taille de mon réseau et les couches empilées mais aucune amélioration.Quelle est la taille d'ensemble minimale requise pour la classification des sentiments sur les textes courts?

Quelle est la taille minimale pour un tel ensemble d'entraînement afin de commencer à obtenir des résultats raisonnables (F1> 0,8).

Répondre

0

Vous auriez seulement besoin de faire une liste d'environ 100 adjectifs négatifs et positifs.

Voir:
http://na2english.wikispaces.com/file/view/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf/400672720/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf

http://arxiv.org/ftp/arxiv/papers/1011/1011.4623.pdf

Il est évident que les citer si vous les utilisez, mais la langue est libre, de sorte que vous pouvez les utiliser pour votre travail.

Probablement plus important que la taille de la base de données que vous construisez sera de choisir des mots qui ciblent votre application spécifique pour une efficacité accrue.

Visez-vous ce projet à un usage commercial spécifique ou à un effort de recherche plus généralisé?