2012-11-19 2 views
0

J'ai un très grand indice de solr. Je veux marquer tous les documents avec des termes qui représentent mieux ce document comme this. Ce type de résultats de regroupement est-il également inclus dans le marquage de documents?Marquage de document

Quelle est la meilleure approche, l'indexation de l'indexation de document ou l'étiquetage de document de temps de requête comme carotte2?

Répondre

1

Le temps de requête présente l'inconvénient évident que cela rend la requête plus coûteuse. Cependant, les résultats de la mise en grappe au moment de la requête sont supposés être meilleurs, car à ce moment-là, plus d'informations ont été vues et les commentaires des utilisateurs peuvent être incorporés.

Notez que sur le plan technique, ce qui est probablement plus modèle minier fréquent que analyse typologique.

Peut-être que vous devriez simplement essayer cette variante de l'exploration de motifs fréquente sur l'ensemble de vos données. Vous n'aurez peut-être même pas besoin de stocker quels documents ont été étiquetés de quelle façon - le moteur solr devrait déjà être optimisé pour les récupérer à nouveau si nécessaire.

+0

Merci Anony-Mousse, Juste une clarification de plus. Voulez-vous dire que le balisage de document (que ce soit l'heure de l'index ou l'heure de la requête) sert le même but que celui du regroupement de documents? – user1834873

+0

Habituellement, le marquage est une multi-catégorisation générée par l'utilisateur (recherche de folksonomie). Le vrai cluster est beaucoup plus subtil, il sert à la découverte de structures que l'humain pourrait manquer; mais cela peut ou non être utile à l'utilisateur. –

+0

merci @ Anony-Mousse je vais étudier plus et revenir – user1834873

0

J'ai compris à partir de votre question que vous voulez savoir comment implémenter quelque chose de similaire à carrot2 facettage en utilisant solr.

OMI vous pouvez ajouter un champ multivaluétag à vos documents (voir ce Stack Overflow Question pour un exemple) avec les noms de cluster pour ce doc, puis construire facettes à l'aide de ce champ comme expliqué dans Solr wiki here et here .

+0

Merci Tony, Une question est, est-ce que cela récupérera seulement les meilleurs termes de ces champs, ou les Pharases viendront-ils aussi? – user1834873