Avec solr-4.9 (la dernière version à partir de maintenant), l'extraction de données à partir de documents riches comme pdfs, feuilles de calcul (xls, XLXS famille), des présentations (ppt, PPts), documentation (doc, txt, etc) a devenir assez simple. Les exemples de code fournis dans l'archive téléchargée de here contiennent un projet de modèle de base solr pour vous permettre de démarrer rapidement.
Les modifications de configuration nécessaires sont les suivantes:
Modifier le solrConfig.xml
d'inclure les lignes suivantes:
<lib dir="<path_to_extraction_libs>" regex=".*\.jar" /> <lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />
créer un gestionnaire de requête comme suit:
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults" /> </requestHandler>
2.Ajoutez les bocaux nécessaires de l'exemple solr à votre projet.
3.Define le schéma selon vos besoins et tirer une requête comme:
curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "[email protected]"
Aller au portail de l'interface graphique et requête pour voir le contenu indexé. Informez-moi si vous rencontrez des problèmes.
Est-il possible d'afficher en quelque sorte ce contenu analysé de pdf? (Je veux dire du texte brut) – zygimantus
Vous pouvez définir le champ de contenu à 'stored = true'. Si vous recherchez un document sur solr, vous pouvez imprimer le champ stocké pour l'aperçu ou la coloration syntaxique par exemple. –
Vous voulez dire que ce paramètre est disponible en tant que paramètre ou est-ce une configuration? – zygimantus