Utiliser Lucene comme un index inversé

Lucene a une grande capacité d'indexation incrémentale. Ce qui est normalement une douleur lors du développement d'un système IR à partir de zéro. Je voudrais savoir si je peux utiliser des API Lucene de bas niveau pour l'utiliser uniquement comme index inversé, c'est-à-dire stockage pour listes inversées, informations de position, fréquence de terme, idfs, stockage de champ, etc ...Utiliser Lucene comme un index inversé

L'essentiel est que je veux mettre en œuvre mes propres pondérations et la notation des documents. Je suis au courant de la classe Similarity, mais cela ne donne pas la flexibilité que je veux.

Source

2011-03-10 Felipe Hummel

Vous pouvez certainement créer votre propre classe de requête, et vos propres marqueurs, etc. Le seul problème que vous pourriez rencontrer est si vous avez besoin de données globales. (Par exemple, dans tf/idf, vous devez connaître les termes freq et freq doc inverse.) S'il existe d'autres métadonnées inter-documents ou croisées dont vous avez besoin pour votre algorithme de notation, vous risquez de rencontrer des problèmes car il n'y a pas C'est un excellent moyen que je connaisse pour stocker ça.

Mais fondamentalement, tant que votre algorithme est vaguement tf/idf ou ne fonctionne que par document, je pense que tout ira bien.

Source

2011-03-10 20:03:24 Xodarap

Utiliser Lucene comme un index inversé

Répondre

Questions connexes