Je suis à la recherche d'une solution de recherche qui permettra d'identifier les chaînes (noms de sociétés) et d'utiliser ces chaînes pour la recherche et les facettes dans Solr. Je suis nouveau à Nutch et Solr donc je me demande si cela est mieux fait dans Nutch ou dans Solr. Une solution consisterait à générer un analyseur dans Nutch qui identifie les chaînes en question, puis indexer le nom de l'entreprise, puis mappé à une valeur Solr. Je ne suis pas sûr sur comment, mais je suppose que cela pourrait également être fait à l'intérieur de Solr directement à partir du texte?Identification des chaînes dans les documents, avec nutch + solr?
Est-ce qu'il est logique de faire cette identification de chaîne dans Nutch ou dans Solr et y a-t-il une fonctionnalité dans Solr ou Nutch qui pourrait m'aider ici?
Merci.
1. où sont les documents source? 2. Qui fournit la liste des noms de sociétés? –
@ms: 1. les documents sources sont situés sur un ensemble de sites Web et j'utilise nutch pour les explorer. 2. Je maintiendrai moi-même la liste des noms de sociétés, soit dans une base de données, soit simplement dans un fichier XML. – grm