Pouvez-vous utiliser ExtractingRequestHandler et Tika avec l'un des formats de fichiers compressés (zip, tar, gz, etc.) pour extraire le contenu à indexer?Utiliser ExtractingRequestHandler de Solr CELL pour indexer/extraire des fichiers à partir de formats de paquets
J'envoie le fichier archive.tar en utilisant curl. curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H 'Type de contenu: application/octet-stream' --data-binaire "@/home/archive.tar" Le résultat obtenu lorsque j'interroge le document est que les noms de fichier à l'intérieur l'archive est indexée comme "body_texts", mais le contenu de ces fichiers est non extrait ou inclus. Ce n'est pas le comportement que je m'attendais. Réf: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example. Lorsque j'envoie 1 des documents réels à l'intérieur de l'archive en utilisant la même commande curl , le contenu extrait est ensuite stocké dans le champ "body_texts". Am Je manque une étape pour les fichiers compressés?
J'ai ajouté toutes les dépendances d'extraction comme indiqué par tapis dans http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell et suis capable d'extraire les données avec succès à partir de MS Word, PDF, documents HTML. J'utilise les versions de bibliothèque suivantes. Solr 1.40, Solr Cell 1.4.1, avec Tika Core 0.4
Étant donné que tout ce que j'ai lu cette version de Tika devrait prendre en charge l'extraction des données de tous les fichiers d'un fichier compressé. Toute aide ou suggestion serait appréciée.