Supposons que nous avons la série suivante de cinq documents
- d1: Roméo et Juliette.
- d2: Juliette: O joyeux poignard!
- d3: Romeo est mort au poignard.
- d4: "Vivre libre ou mourir", c'est la devise du New-Hampshire.
- d5: Saviez-vous que New-Hampshire est en Nouvelle-Angleterre.
et une requête de recherche: meurt, poignard.
De toute évidence, d3 devrait être classé en tête de liste car il contient les deux matrices, poignard. Ensuite, d2 et d4 devraient suivre, chacun contenant un mot de la requête. Cependant, qu'en est-il de d1 et d5? Devraient-ils être retournés comme résultats potentiellement intéressants à cette requête? En tant qu'êtres humains, nous savons que d1 est tout à fait lié à la requête . D'un autre côté, d5 n'est pas tellement lié à la requête. Ainsi, nous aimerions d1 mais pas d5, ou autrement dit, nous voulons que d1 soit classé plus haut que d5.
La question est: Est-ce que la machine peut déduire cela? La réponse est oui, LSI fait exactement cela. Dans cet exemple , LSI sera en mesure de voir que le terme dagger est lié à d1 parce qu'il se produit avec les termes d1 Romeo et Juliet, en d2 et d3, respectivement.En outre, les matrices de terme sont liées à d1 et d5 parce qu'il se produit avec le terme Romeo de d1 et le terme New-Hampshire de d5 en d3 et d4, respectivement. LSI va également peser correctement les connexions découvertes; d1 plus est liée à la requête
que d5 puisque d1 est "doublement" connecté à poignarder Romeo et Juliette, et également connecté à Romeo, alors que d5 n'a qu'une seule connexion à la requête à travers New-Hampshire .
Référence: Latent Semantic Analysis (Alex Thomo)
Cela pourrait être un meilleur ajustement à cstheory.stackexchange.com. – templatetypedef
Avez-vous lu le paragraphe introductif de http://en.wikipedia.org/wiki/Latent_semantic_analysis? – borrible
Salut, j'ai aussi eu le même doute! Est-il obligatoire de réduire les dimensions? pourquoi ne pouvons-nous pas simplement utiliser la matrice v pour trouver la similarité entre les documents et la matrice u pour trouver la similarité entre les termes? – CTsiddharth