2016-12-13 2 views
0

comme vous le savez, il existe différentes techniques d'indexation des documents pour les moteurs de recherche. tels que l'index inversé, l'indexation dynamique distribuée, l'indexation sémantique, l'indexation NGram, l'indexation de contexte, les données volumineuses, l'indexation multilingue et ainsi de suite. Je travaille avec Solr maintenant. Je me demande quelles techniques utilise Solr pour indexer des documents et comment Solr (ou Lucene) utilise ces techniques?Quelles sont les techniques utilisées par Solr pour indexer les fichiers?

Répondre

1

D'abord - c'est un domaine très vaste et la plupart des termes que vous listez ne sont pas des types d'index. Ils décrivent les fonctionnalités du produit (ou mots à la mode) qui peuvent être prises en charge indépendamment de la façon dont l'index est construit derrière la scène.

Solr utilise Lucene - qui à la base est un index inversé.

L'index stocke des statistiques sur les termes afin de rendre la recherche par terme plus efficace. L'indice de Lucene s'inscrit dans la famille des indices connus sous le nom d'indice inversé. C'est parce qu'il peut lister, pour un terme, les documents qui le contiennent. C'est l'inverse de la relation naturelle, dans laquelle les documents listent les termes.

Il existe également de nombreuses structures de support en place pour rendre Lucene encore plus efficace pour certaines requêtes et fonctionnalités. Sur cette caractéristique est le DocValues support - qui peut être décrit comme un magasin axé sur les colonnes avec des mappages de terme de document -> pour accélérer des choses comme le facettage.

Vous pouvez voir la plupart de ces fonctions de support dans le Codecs API Doc for Lucene 6.3.0. Comme c'est une assez grande liste, je vais le laisser de côté dans le commentaire lui-même.

1

Pour répondre à qui techniques - Sous le capot, Solr utilise Lucene API et technique d'indexation Lucene est - indexation Inverted. Solr est simplement une application complète avec un wrapper d'infrastructure mais la technique d'indexation de document sous-jacente est celle fournie par les API Lucene.

Comment Solr (ou Lucene) utiliser ces techniques?

Here est un bon aperçu de l'indexation Lucene pour les débutants. C'est juste un aperçu très simpliste, mais explique les bases. Puisque Solr est un produit, la plupart de ses documentations disponibles sont des documentations fonctionnelles (n'expliquant pas les techniques d'indexation actuelles, etc.) et comme l'utilisation brute de Lucene est minime, la documentation de Lucene n'est pas à la hauteur la plupart du temps. besoin de creuser le code Lucene ou la documentation de l'API pour comprendre le fonctionnement de Lucene.

Espérons que ça aide !!