0

J'ai les journaux des utilisateurs effectuant des recherches sur mon site Web et les recherches qu'ils ont effectuées, et les résultats sur lesquels ils ont cliqué. Je voudrais améliorer l'algorithme de recherche. Mais d'abord j'ai besoin d'un moyen de mesurer sa qualité. Je suis conscient que je peux collecter des données avec Amazon Turk etc et amener les humains à produire une suite de tests. Cependant, je voudrais utiliser les données déjà disponibles dans les journaux de mon site Web. Est-ce que quelqu'un peut me diriger vers la façon dont je pourrais faire ceci s'il vous plaît et quel algorithme utiliser?Évaluation d'un moteur de recherche avec des journaux de clics non supervisés

Merci!

Répondre

1

Il s'agit en fait d'un grand sujet utilisant souvent une technique d'évaluation en ligne appelée Interleaving. Avez-vous uniquement vos journaux de serveur Web ou créez-vous également des journaux de recherche personnalisés? Google Analytics?

Pour une bonne vue d'ensemble préliminaire d'évaluation axé sur le système des moteurs de recherche avec des pointeurs vers d'autres travaux sur ce sujet, voir les diapositives de Mounia Lalmas: https://www.slideshare.net/mobile/mounialalmas/an-introduction-to-systemoriented-evaluation-in-information-retrieval

Je pense que pour des raisons pratiques, vous pouvez vérifier ce post par Daniel Tunkelang: http://twiggle.com/blog/evaluating-good-search-part-ii-measuring-searcher-behavior?utm_content=59131694

Vous pouvez vérifier les positions des premiers résultats cliqué (Mean Recipopal Rank), ou si c'est trop de travail pour reconstruire, tout simplement le nombre de clics serait un bon début. Cela vous donne une base de référence. Et compte tenu de votre domaine et de la configuration de votre application, vous pouvez vérifier à quelle fréquence une action (réservée, achetée, contactée, etc.) est prise après un clic (taux de conversion). Si votre site Web a un peu de trafic, vous pouvez effectuer des tests A/B pour lesquels le taux de clics et/ou le taux de conversion sont plus élevés.

+0

Merci beaucoup! Je vais essayer les deux – Tom