2017-07-18 2 views
-1

J'essaie d'utiliser scikit appliqué au traitement du langage naturel et je commence par lire quelques tutoriels. J'ai trouvé celui-ci http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/ qui explique comment obtenir des scores tfidf à partir d'un ensemble de documents.Comment trouver TF-IDF d'un terme à l'égard d'un document en utilisant scikit

Mais j'ai une question, TF-IDF est supposé dépendre d'un terme, le document de ce terme et la collection de tous les documents à analyser.

Ainsi, par exemple. Dans une collection de deux documents, A et B, le terme « cheval » devrait obtenir un score différent TF-IDF si nous calculons TF-IDF en utilisant le document A que le même terme, mais en analysant la fréquence à long terme du document B.

Comment puis-je calculer TF-IDF d'un terme pour un document spécifique en utilisant scikit?

Répondre

0

tutoriel vous avez parlé TF qui peuvent communiquer-IDF est calculé comme suit:

tfidf_matrix = tf.fit_transform(corpus) 

Quote: « si nous regardons tfidf_matrix nous attendrions que ce soit un 208 x 498254 matrice - une ligne par épisode, une colonne par phrase ". Ainsi, TF-IDF de chaque phrase est différent pour chaque épisode (texte) dans cette matrice. Comme prévu

L'élément matriciel tfidf_matrix [document, expression] est la valeur TF-IDF pour chaque phrase particulière dans un document particulier d'un corpus (tous les documents).