Étant donné un dictionnaire fini de termes d'entité, je suis à la recherche d'un moyen de faire Extraction d'entité avec un étiquetage intelligent en utilisant Lucene. Actuellement, je suis en mesure d'utiliser Lucene pour:
- Recherche de phrases complexes avec quelques
du flou régnant - Mise en évidence résultatsLucene Entity Extraction
Cependant, je ne suis pas au courant comment:
compensations précises -get des phrases adaptées
-Ne annotaions spécifiques à l'entité par match (pas seulement balises pour chaque coup)
j'ai essayé d'utiliser l'expliquer() méthode - mais cela ne donne que les termes de la requête qui a obtenu le coup - non les décalages du hit dans le texte original.
Est-ce que quelqu'un a fait face à un problème similaire et est prêt à partager une solution potentielle?
Merci d'avance pour votre aide!
Ce qui précède est pour obtenir le décalage pour un seul terme, cependant, j'ai besoin du décalage de la phrase complète qui a correspondu à ma recherche. En ce qui concerne le champ stocké, comment est-ce que j'obtiendrais les données directement pour chaque phrase du dictionnaire? –
@Dima_F: J'ai ajouté du code pour montrer comment utiliser les champs stockés. Compensations de phrase de phrase: Je ne pense pas que vous pouvez. Vous pouvez jeter un coup d'œil à ce que [le surligneur fait] (http://www.docjar.org/html/api/org/apache/lucene/search/vectorhighlight/SimpleFragListBuilder.java.html), mais votre meilleur pari pourrait être pour modifier le code du surligneur pour renvoyer le décalage. – Xodarap
Merci beaucoup pour votre aide à ce sujet! Je vous ferai savoir où je peux obtenir avec la modification de surligneur. –