J'essaie d'utiliser scikit appliqué au traitement du langage naturel et je commence par lire quelques tutoriels. J'ai trouvé celui-ci http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/ qui explique comment obtenir des scores tfidf à partir d'un ensemble de documents.Comment trouver TF-IDF d'un terme à l'égard d'un document en utilisant scikit
Mais j'ai une question, TF-IDF est supposé dépendre d'un terme, le document de ce terme et la collection de tous les documents à analyser.
Ainsi, par exemple. Dans une collection de deux documents, A et B, le terme « cheval » devrait obtenir un score différent TF-IDF si nous calculons TF-IDF en utilisant le document A que le même terme, mais en analysant la fréquence à long terme du document B.
Comment puis-je calculer TF-IDF d'un terme pour un document spécifique en utilisant scikit?