2010-10-25 5 views
0

Pouvez-vous utiliser ExtractingRequestHandler et Tika avec l'un des formats de fichiers compressés (zip, tar, gz, etc.) pour extraire le contenu à indexer?Utiliser ExtractingRequestHandler de Solr CELL pour indexer/extraire des fichiers à partir de formats de paquets

J'envoie le fichier archive.tar en utilisant curl. curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H 'Type de contenu: application/octet-stream' --data-binaire "@/home/archive.tar" Le résultat obtenu lorsque j'interroge le document est que les noms de fichier à l'intérieur l'archive est indexée comme "body_texts", mais le contenu de ces fichiers est non extrait ou inclus. Ce n'est pas le comportement que je m'attendais. Réf: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example. Lorsque j'envoie 1 des documents réels à l'intérieur de l'archive en utilisant la même commande curl , le contenu extrait est ensuite stocké dans le champ "body_texts". Am Je manque une étape pour les fichiers compressés?

J'ai ajouté toutes les dépendances d'extraction comme indiqué par tapis dans http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell et suis capable d'extraire les données avec succès à partir de MS Word, PDF, documents HTML. J'utilise les versions de bibliothèque suivantes. Solr 1.40, Solr Cell 1.4.1, avec Tika Core 0.4

Étant donné que tout ce que j'ai lu cette version de Tika devrait prendre en charge l'extraction des données de tous les fichiers d'un fichier compressé. Toute aide ou suggestion serait appréciée.

Répondre

1

La réponse courte: Solr Cell 1.4.1 et Tika Core 0.6. La réponse longue: Après beaucoup de maux de tête, j'ai réussi à faire fonctionner ce système. Je vais y répondre pour les deux personnes utilisant solr directement et pour les personnes utilisant solr avec la tache de la bibliothèque Ruby (qui était mon problème).

Voici ce que j'ai fait: J'ai utilisé ce plugin https://github.com/tomasc/sunspot_cell pour prolonger la tache solaire et lui donner la fonction de fixation. (Ignorez cette étape si vous n'utilisez pas ruby ​​/ sunspot)

v1.4.1 fonctionne pour des fichiers individuels mais pas avec des fichiers compressés, j'ai donc dû explorer un peu. J'ai téléchargé la base de code v1.4.1 à partir de http://lucene.apache.org/solr/ et j'ai saisi le fichier dist/apache-solr-cell-1.4.1.jar puis j'ai dû retirer les bibliothèques Tika de la branche http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Vous pouvez télécharger chacun individuellement, ou vous pouvez utiliser svn à la caisse par la branche

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev 

Ou tout simplement extraira le dossier de la bibliothèque:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ 
Questions connexes