1

J'ai eu affaire à un problème dans le traitement de texte. J'apprécierais que quelqu'un puisse m'aider. J'ai un jeu de données composé de 12 000 enregistrements de commentaires. Lorsque j'exécute un extracteur n-gramme, je gagne 170 000 unigram + bigram, ce qui est trop long pour être traité par un algorithme d'apprentissage automatique.Comment réduire les fonctionnalités de n-gram?

Comment réduire le nombre de ces fonctions extraites? Y a-t-il un algorithme particulier ou quelque chose?

Répondre

3

Il n'est pas nécessaire de conserver tous les N-grrams. Vous devriez réduire la liste des N-grammes par fréquence. Par exemple, considérez seulement les unigrammes qui se produisent 40 fois ou plus. La limite pour les bi-grammes de coupe sera plus faible. Il sera encore plus bas pour les tri-grammes et ainsi de suite et ainsi de suite.