2017-09-22 7 views

Répondre

2

Il peut être difficile de trouver un texte définissant des cas de bord de mesures comme celle-ci, et les formulations mathématiques ne traitent souvent pas de l'incomplétude des données. Pour des problèmes comme celui-ci, j'ai tendance à prendre la décision de trec_eval qui est un outil distribué par NIST qui a des implémentations de toutes les mesures de récupération courantes, en particulier celles utilisées par les défis dans les conférences de récupération de texte.

par la description métrique dans m_P.c de trec_eval 9.0 (appelé la dernière sur cette page):

Precision measured at various doc level cutoffs in the ranking. 
If the cutoff is larger than the number of docs retrieved, then 
it is assumed nonrelevant docs fill in the rest. Eg, if a method 
retrieves 15 docs of which 4 are relevant, then P20 is 0.2 (4/20). 
Precision is a very nice user oriented measure, and a good comparison 
number for a single topic, but it does not average well. For example, 
P20 has very different expected characteristics if there 300 
total relevant docs for a topic as opposed to 10. 

Cela signifie que vous devez toujours diviser par k même si moins de k ont été récupérées, de sorte que la précision serait être 0,3 au lieu de 0,6 dans votre cas particulier. (Punir le système pour récupérer moins de k).

L'autre cas délicat est lorsqu'il y a moins de k documents pertinents. C'est pourquoi ils notent que la précision est une mesure utile mais qu'elle ne se compare pas bien. Voici quelques mesures qui sont plus robustes à ces problèmes: Le gain cumulé actualisé normalisé (NDCG) qui compare le classement à un classement idéal (à un seuil) et (plus simple) R-Precision: qui calcule la précision au nombre de documents pertinents, plutôt que d'un k fixe. Alors qu'une requête peut calculer P @ 15 pour R = 15, et une autre peut calculer P @ 200 pour R = 200.