Si j'utilise le TfidfVectorizer
de sklearn
pour générer des vecteurs de caractéristiques comme:Comment classer de nouveaux documents avec tf-idf?
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
Comment pourrais-je générer alors des vecteurs de caractéristiques pour classer un nouveau document? Puisque vous ne pouvez pas calculer le tf-idf pour un seul document.
Serait-ce une bonne approche, pour extraire les noms de fonctions avec:
feature_names = TfidfVectorizer.get_feature_names()
puis compter la fréquence à long terme pour le nouveau document selon la feature_names
?
Mais alors je ne vais pas obtenir les poids qui ont l'information d'une importance de mots.