Comment modifier la fonction de notation de Solr pour donner moins de poids à la "fréquence de terme"? J'utilise un boost de document de type pagerank comme facteur de pertinence. Mon index de recherche met actuellement beaucoup de documents qui sont "spammy" ou pas bien nettoyés et ont des mots répétitifs sur le dessus.Donner moins de poids à la fréquence du terme dans solr?
Je sais que le score est calculé par la fréquence des termes (fréquence de recherche dans le document), la fréquence des documents inverses et d'autres (How are documents scored?). Je pourrais juste augmenter le coup de pouce, mais cela déséquilibrerait également les autres facteurs.
Est-ce le chemin à parcourir pour spécifier une fonction au moment de la requête (et quelle est la fonction par défaut), ou dois-je changer la configuration et réindexer? J'utilise django-haystack avec solr, si ça fait une différence.
La similarité par défaut est passée à BM25 avec la sortie de Solr6. Vous pouvez également définir la classe de similarité _per field_ now, de sorte que vous pouvez avoir un champ avec un calcul différent des autres champs. – MatsLindh
Merci pour l'information! Pour la postériorité, voici un lien instructif sur la différence entre TD-IDF et BM25 dans Lucene: http://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/ – jdm