J'ai créé un Tokenizer personnalisé dans Solr qui recherche les entités nommées. Je voudrais pouvoir utiliser cette information pour remplir des champs séparés dans le document lucene/solr. Par exemple, je veux remplir un champ à plusieurs valeurs appelé «emplacements» avec tous les noms d'emplacement qui ont été extraits du texte. Pour extraire des emplacements, le texte est d'abord segmenté pour séparer les mots et déterminer quels sont les emplacements. Après ce processus, je voudrais émettre les jetons pour le tokenizer, mais aussi remplir les champs "emplacements" avec tous les noms d'emplacement qui ont été extraits du texte. De la recherche que j'ai faite, il n'y a aucun moyen d'accéder à l'objet SolrDocument à partir du Tokenizer ou du TokenizerFactory, donc il n'y a aucun moyen de remplir les champs d'ici.Solr: Remplir des champs séparés à partir d'un Tokenizer
La solution que j'ai trouvée jusqu'ici est de créer un UpdateRequestProcessorFactory personnalisé qui traite le texte et extrait les champs, puis le Tokenizer traite le texte AGAIN pour obtenir les jetons. Je voudrais trouver un moyen de faire ce travail et ne traiter le texte qu'une seule fois.