1

J'ai un corpus d'environ 6000 textes avec des commentaires du réseau social (FB, twitter), le contenu des nouvelles et des magazines généraux et régionaux, etc. J'ai lu les 300 premiers textes et étiqueté chacun de ces 300 textes en tant que plainte d'un client ou non. Au lieu de la manière naïve du sac de mots, je me demande comment puis-je extraire avec précision les caractéristiques de ces textes de plaintes et de non-plaintes? Mon but est d'utiliser SVM ou un autre algorithme/bibliothèque de classification tel que Liblinear pour classer avec plus de précision le reste de ces textes en tant que plainte ou non-plainte avec l'ensemble de formation actuel de 300 textes. Cette procédure est-elle similaire à l'analyse de sentiment? Si non, où devrais-je commencer?Comment extraire des éléments de PLAINTE de textes afin de classer des plaintes de textes non-plaintes

Répondre

0

Je pense que vous trouverez que le sac-de-mots n'est pas si naïf. C'est en fait une manière parfaitement valide de représenter vos données pour les donner à un SVM. Si cela ne vous donne pas assez de précision, vous pouvez toujours inclure des bigrammes, c'est-à-dire des paires de mots, dans votre vecteur de caractéristiques au lieu de simplement les unigrammes.