2010-05-10 5 views
6

Im exécutant Solr 1.4 sur Ubuntu 10.04 (installé via apt-get solr-tomcat) et il semble fonctionner correctement. J'ai de la difficulté à trouver des informations cohérentes sur la façon d'indexer les documents. Im nouveau à SOLR alors ours avec moi! J'ai un dossier (/ mnt/folder) qui est un partage Windows monté, qui contient des fichiers Word et PDF que je voudrais indexé, quel est le moyen le plus simple pour obtenir SOLR pour indexer le dossier entier? La documentation pour SOLR est assez pauvre, il est impossible de trouver des didacticiels décents sur les choses à faire pour que toute aide soit grandement appréciée!Comment indexer des documents dans SOLR?

S

Répondre

7

Jetez un oeil à la Solr wiki, c'est une documentation assez complète.

En particulier, voir ExtractingRequestHandler, qui vous permet d'indexer des fichiers binaires tels que des documents Word et PDF. Here's an introduction sur le sujet. Si le wiki ne vous suffit pas, il existe également un great book about Solr.

+1

Le lien Lucid ne fonctionne pas. La vidéo est trouvée sur YouTube cependant. http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec

+0

Seul le lien vers le livre fonctionne – orezvani

1

J'ai trouvé les mêmes défis avec la documentation de base, mais je suis tombé sur ce guide de référence très utile de LucidImagination, ce qui a permis de clarifier beaucoup de choses au sujet SOLR:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

Malheureusement, ce lien ne fonctionne plus. –

+0

Je pense que cela remplacerait ce qui précède: http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza

0

Traitement des documents riches avec Solr: http://wiki.apache.org/solr/UpdateRichDocuments

+2

Oh, juste reconnu, que cette méthode a été remplacée par le ExtractingRequestHandler, comme Mauricio suggéré. (citation de solr wiki: Cette page couvre le RichDocumentHandler créé par Eric Pugh et Chris Harris.L'intégration Tika de Solr, qui remplacera le RichDocumentHandler est décrite dans ExtractingRequestHandler Cette page est conservée ici pour les utilisateurs qui utilisent actuellement RichDocumentHandler_ – High6

Questions connexes