2017-09-05 9 views
1

J'essaie de former un modèle pour classer les tweets en utilisant opennlp. Ma question est de savoir si je devrais effectuer la tokenization, arrêter le retrait de mot etc. sur les tweets que j'utilise pour entraîner le modèle ou devrais-je utiliser le tweet directement sans effectuer la désinfection?Modèle de formation de classification PNL

+0

Quoi votre modèle essaie d'accomplir? – TrnKh

Répondre

0

Cela dépend vraiment de ce que vous êtes de formation:

  • Si votre algorithme est conçu pour recevoir un texte simple et il exécute toute la simplification par elle-même avant d'utiliser les techniques d'apprentissage de la machine sur elle, vous devez fournir des paires de tapez
  • Sinon, si vous ne faites que trier une boîte noire, je dirais que si votre modèle doit fonctionner sur un certain type de caractéristiques, dans votre cas, il devrait être formé sur ce type de données.