2011-07-13 6 views
0

Le classeur Sphinx utilise un BM25 légèrement modifié (statistique-sac-de-mots) + une formule de correspondance de chaînes de mots plus longs favorisant fortement ce dernier, tandis que Solr utilise une autre fonction de classement statistique (pas BM25, mais similaire) + un boost si désiré pour le mot bigrams (ceci est similaire à l'approche LWS). Je pense que les deux ne modélisent pas le point de vue d'un humain sur la pertinence, selon lequel la pertinence ne tombe pas d'une falaise lorsque les mots d'une réponse ne sont pas nécessairement adjacents ou dans le même ordre.Solr & Sphinx: comment améliorer la pertinence?

Exemples simples:

Requête: Bob Jones

Corps:. . . . Jones, Bob. . . . (Semble pertinente pour moi, mais cela va revenir à seule statistique)

-ou-

corps. . . . Bob MiddleName Jones. . . . (même)

Je sais qu'il y a un coût à cela, mais je ne peux pas être le seul à avoir remarqué que Solr et Sphinx reviendraient tous deux au classeur statistique du sac de mots si les mots sont sortis de l'ordre ou séparés par un mot, ce qui pourrait même être un mot d'arrêt dans certains cas.

Pensées? Que faire si je veux classer l'un ou l'autre des cas au-dessus de ceux où les mots apparaissent juste quelque part dans le document? Ou ai-je tort et est-ce que Solr ou Sphinx font cela?

Répondre

0

Dans Solr, il existe un classement basé sur la proximité. check http://wiki.apache.org/solr/SolrRelevancyCookbook#Term_Proximity

+0

AFAIK cela améliorerait seulement le cas n ° 2 (Bob MiddleNameJones). Les deux approches énumérées à ce lien ne traiteront pas le premier cas (inversion) et ne fonctionneront pas en coordination avec le classement statistique. Un autre point: Common_Word Other_Common_Word Rare_Word, si les 2 premiers sont proches des autres termes mais que le dernier mot ne l'est pas, cela devrait être moins important. –

Questions connexes