J'ai eu affaire à un problème dans le traitement de texte. J'apprécierais que quelqu'un puisse m'aider. J'ai un jeu de données composé de 12 000 enregistrements de commentaires. Lorsque j'exécute un extracteur n-gramme, je gagne 170 000 unigram + bigram, ce qui est trop long pour être traité par un algorithme d'apprentissage automatique.Comment réduire les fonctionnalités de n-gram?
Comment réduire le nombre de ces fonctions extraites? Y a-t-il un algorithme particulier ou quelque chose?