Total Number documents in Corpus
est simplement la quantité de documents que vous avez dans votre corpus. Donc, si vous avez 20 documents, cette valeur est 20
.
Number of Document matching term
est le nombre de documents dans lequel le terme t
se produit. Donc, si vous avez 20 documents au total et le terme t
dans 15 se produit des documents alors la valeur pour Number of Documents matching term
est 15.
La valeur de cet exemple serait donc IDF(t,D)=log(20/15) = 0.1249
Maintenant, si je ne me trompe pas, vous avez plusieurs catégories par document et vous voulez pouvoir classer de nouveaux documents avec une ou plusieurs de ces catégories. Une méthode pour ce faire serait de créer un document pour chaque catégorie. Chaque document de catégorie doit contenir tous les textes qui sont étiquetés avec cette catégorie. Vous pouvez ensuite exécuter tf*idf
sur ces documents.
Une manière simple de catégoriser un nouveau document pourrait alors être obtenue en additionnant les valeurs de terme de la requête en utilisant les différentes valeurs de termes calculées pour chaque catégorie. La catégorie dont les valeurs de termes, utilisées pour calculer le produit, aboutissent au résultat le plus élevé, sera alors classée au 1er rang.
Une autre possibilité consiste à créer un vecteur pour la requête en utilisant le idf
de chaque terme dans la requête. Tous les termes qui n'apparaissent pas dans la requête reçoivent la valeur 0
. Le vecteur de requête peut ensuite être comparé pour la similarité à chaque vecteur de catégorie en utilisant par exemple cosine similarity.
Smoothing est également une technique utile pour traiter les mots dans une requête qui ne se produisent pas dans votre corpus.
Je suggère de lire sections 6.2 and 6.3 de "Introduction to Information Retrieval" par Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze.
Merci ... J'ai eu une réponse. Mais pouvez-vous s'il vous plaît expliquer catégoriser le nouveau document peu élaboré? C'est comment obtenir la catégorie correspondante pour le nouveau document? Alors comment former le vecteur de fréquence pour que le nouveau document fasse l'appariement? .. –
J'ai ajouté l'information à ma réponse. – Sicco
Merci de votre aide .. –