2009-03-25 11 views
3

J'ai un indice de Lucene relativement simple, étant servi par Solr. L'index comprend deux champs principaux, le titre et le corps, et quelques champs moins importants.Titre recommandé boost?

La plupart des moteurs de recherche donnent plus de pertinence aux résultats avec des correspondances dans le titre, sur le corps. Je vais commencer à donner un coup de pouce à l'indexation du champ de titre.

Ma question est, quelles valeurs les gens utilisent-ils généralement pour leurs champs de titre? 2? 4? dix? 100?

+0

Pourquoi utiliser l'augmentation du temps d'index au lieu du temps de recherche? –

Répondre

3

Je vous suggère de diviser la longueur du corps médian par la longueur du titre médian. Cela vous donne à peu près un facteur M - pour M apparences d'un mot dans le corps, il apparaîtra une fois dans le titre. Maintenant, utilisez quelque chose comme M * 3. C'est, bien sûr, une heuristique rationalisée, et il est préférable de parcourir les valeurs. Voir Grant Ingersoll's "Debugging Relevance Issues in Search" pour une discussion beaucoup plus structurée.