J'ai un ensemble de 3000 documents texte et je veux extraire 300 mots-clés (mots simples ou multiples).Extraire les mots-clés les plus importants d'un ensemble de documents
J'ai essayé les approches ci-dessous -
RAKE: Il est une bibliothèque d'extraction à base de mot-clé Python et a lamentablement échoué.
Tf-Idf: Il m'a donné de bons mots-clés par document, mais nous ne sommes pas en mesure de les agréger et de trouver des mots-clés qui représentent l'ensemble du groupe de documents. En outre, il suffit de sélectionner les mots k les plus importants de chaque document en fonction du score Tf-Idf, n'est-ce pas?
Word2vec: J'ai été capable de faire des trucs sympas comme trouver des mots similaires mais je ne sais pas comment trouver des mots-clés importants qui l'utilisent.
Pouvez-vous suggérer une bonne approche (ou élaborer comment améliorer l'un de ces trois points ci-dessus) pour résoudre ce problème? Merci :)
Merci @Awaish, mais j'ai aussi essayé cela. Les résultats ont été très pauvres avec cette approche parce que les termes importants n'apparaissent qu'une ou deux fois. Si j'essaie de trier et de sélectionner les termes Tf-idf en fonction de la fréquence, beaucoup de termes communs et non pertinents apparaissent. – Vijender