-1

J'utilise des vecteurs de mots pour la solution de classification de texte. J'utilise principalement des vecteurs de mots pour traiter le cas de synonymes qui ne sont pas présents dans l'ensemble d'apprentissage mais qui seront présents dans les cas d'utilisation réels. En utilisant simplement des vecteurs de mots, je ne suis pas assez précis dans la prédiction. Quelqu'un peut-il suggérer quelques améliorations que je peux faire sur des vecteurs de mots afin d'améliorer la précision?Améliorations pour la classification de texte à l'aide de vecteurs de mots

+0

Bienvenue dans StackOverflow. Veuillez lire et suivre les consignes de publication dans la documentation d'aide. [sur le sujet] (http://stackoverflow.com/help/on-topic) et [comment demander] (http://stackoverflow.com/help/how-to-ask) s'appliquent ici. Nous pouvons traiter une demande spécifique, mais pas avec une description nébuleuse. Montrez votre conception et utilisation Montrez l'exactitude que vous obtenez, ce que vous attendez, et peut-être pourquoi vous pensez que la précision est possible avec votre approche. – Prune

Répondre

1
  • Déboguez vos cas de mauvaises prédictions. Une bonne qualité d'intégration de synonymes (de ceux dans l'ensemble de données de formation) sera-t-elle utile?

  • Utilisez un autre plongement qui est formé avec un vocabulaire plus large, avec un contenu similaire à votre application, etc.

  • Plus de données de formation (ensemble de données étiquetées). Cela devrait beaucoup aider. La classification de texte a généralement un très grand espace de fonctionnalités. Autorisez la formation de votre couche d'intégration lors de la formation de votre classificateur de texte. Ne vous méprenez pas sur la formation word2vec, qui consiste à obtenir une intégration pré-apprise pour votre couche d'intégration et à utiliser une grande quantité de données non étiquetées. Ici, vous utilisez un ensemble de données relativement plus petit contenant uniquement des données étiquetées. Autoriser la formation de la couche d'intégration signifie que le gradient peut être rétropropagé depuis la couche de sortie vers la couche d'intégration pour affiner les vecteurs d'incorporation.