Comment trier par champ Lucene.Net et ignorer les mots d'arrêt communs tels que «a» et «le»?

J'ai trouvé comment trier les résultats d'une requête par un champ donné dans un index Lucene.Net plutôt que par score; tout ce qu'il faut, c'est un champ qui est indexé mais pas tokenized. Cependant, ce que je n'ai pas réussi à comprendre est comment trier ce champ en ignorant les mots d'arrêt tels que "a" et "the", de sorte que les titres de livres suivants, par exemple, trieraient dans l'ordre croissant comme suit:Comment trier par champ Lucene.Net et ignorer les mots d'arrêt communs tels que «a» et «le»?

le chat dans le chapeau
Horton Hears a Who

une telle chose est possible, et si oui, comment? Je utilise Lucene.Net 2.3.1.2.

Source

2008-09-15 Peaeater

J'enveloppe les résultats retournés par Lucene dans ma propre collection d'objets personnalisés. Ensuite, je peux le remplir avec des informations supplémentaires sur le contexte (et utiliser des choses comme la classe des surligneurs pour extraire un extrait des correspondances), plus ajouter la pagination. Si vous avez emprunté une route similaire, vous pouvez créer une classe/un objet "résultat", ajouter quelque chose comme une propriété SortBy et saisir le champ que vous souhaitez trier, supprimer tous les mots vides, puis l'enregistrer dans cette propriété. Maintenant, il suffit de trier la collection basée sur cette propriété à la place.

Source

2008-09-15 20:42:07

Je pense que c'est comme ça que ça doit être fait, oui. Je crée une collection d'objets personnalisés avec les résultats de Lucene, donc ça ne devrait pas être trop dur. Merci. – Peaeater

Lorsque vous créez votre index, créez un champ contenant uniquement les mots que vous souhaitez trier, puis lors de la récupération, triez sur ce champ mais affichez le titre complet.

Source

2008-09-15 19:40:24

Eh bien, c'est le truc, non? Vous ne pouvez pas trier par un champ à jetons, et c'est la tokenizing qui analyse le champ pour les mots d'arrêt et la ponctuation, tel que je le comprends. Alors, comment supprimer ces mots d'arrêt mais garder le champ non segmenté? – Peaeater

Dans votre code, supprimez les mots d'arrêt. Vous devrez maintenir votre propre liste. –

Cela fait un moment que j'ai utilisé Lucene mais je pense que je devrais ajouter un champ supplémentaire pour trier et stocker la valeur là-dedans avec les mots d'arrêt déjà dépouillés. Vous pouvez probablement utiliser les mêmes analyseurs pour générer cette valeur.

Source

2008-09-15 19:41:17

Il semble y avoir un piège à 22 en ce sens que vous devez marquer un champ avec un analyseur pour supprimer la ponctuation et arrêter les mots, mais vous ne pouvez pas trier sur les champs à jetons. Comment alors se débarrasser des mots d'arrêt sans les marquer?

Source

2008-09-15 20:02:00 Peaeater

Ne comptez pas sur Lucene pour les dépouiller, faites-le vous-même. –

Pour la recherche, j'ai trouvé search lucene .net index with sort option lien intéressant pour résoudre ur problème

Source

2009-07-29 13:57:35

Comment trier par champ Lucene.Net et ignorer les mots d'arrêt communs tels que «a» et «le»?

Répondre

Questions connexes