Formats de base de données de récupération d'information?

Je suis à la recherche d'une documentation sur la façon dont les systèmes de récupération d'informations (par exemple, Lucene) stockent leurs index pour des recherches rapides de "pertinence". Mon Google-fu échoue: j'ai trouvé une page qui décrit le format de Lucene, mais elle est plus centrée sur le nombre de bits de chaque numéro que sur la façon dont la base de données est utilisée pour produire des requêtes rapides.Formats de base de données de récupération d'information?

Sûrement quelqu'un a des signets utiles qui traînent et auxquels ils peuvent me référer.

Merci!

Source

2010-04-13 jemfinch

L'indice Lucene est un index inversé, de sorte que toute recherche sur ce sujet doit être pertinent, comme:

Source

2010-04-13 18:25:38

Certes, il est un index inversé, mais si je avoir une requête de 10 termes, est-ce que lucene cherche vraiment chaque terme dans l'index inversé, en croisant les résultats et en les classant? – jemfinch

En substance, oui, si vous regardez la formule de notation Lucene (http://lucene.apache.org/java/3_0_1/api/all/org/apache/lucene/search/Similarity.html), vous verrez que chaque terme de requête est utilisé pour construire un vecteur qui va être utilisé pour rechercher dans l'index –

Formats de base de données de récupération d'information?

Répondre

Questions connexes