J'ai Lucene/Solr 4 pour tester différentes fonctionnalités, également "clustering". Actuellement, 1 million de documents sont indexés. Chaque document a les champs suivants:Comment le clustering (carotte) fonctionne-t-il dans solr?
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
Tous les champs sont indexés et stockés, TEXT exapt, qui est indexé uniquement, ne sont pas stockées. J'utilise la configuration spécifique suivante:
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
Si vous cherchez l'exemple que vous voyez, que le sujet est différent, mais le Japon est le même. Est-il possible de configurer solr/carot de cette façon, que example1 et example2 seront dans un cluster? En raison de l'appariement "japon"?! En outre, il pourrait y avoir un 3ème sujet comme "news/nuclear power", pas de "japan" à l'intérieur mais HEADLINE et TEXT utilisent les mots: japans power plant. Quelle configuration de solr/carotte est pertinente pour recevoir ces 3 nouvelles dans un cluster?
Merci!
Merci, il y a beaucoup d'idées intéressantes, je vais essayer. –