2009-12-30 4 views
3

J'utilise ExtractingRequestHandler dans Solr pour obtenir du contenu de document et l'indexer. Cela fonctionne correctement pour tous les documents Microsoft, mais pour les fichiers PDF, le contenu extrait est vide. J'ai aussi essayé extractOnly = true avec curl, et cela retourne aussi juste le corps vide.Solr ExtractingRequestHandler donnant un contenu vide pour les documents pdf

J'ai utilisé TIKA indépendamment sur les mêmes documents et cela extrait très bien le contenu. La différence est quand faire indépendamment j'utilise BodyContentHander qui vient avec Tika au lieu de SolrContentHandler qui est utilisé par Solr. Est-ce que quelqu'un a vu ça? Je préférerais vraiment laisser Solr gérer cela que moi en utilisant Tika pour extraire le contenu en dehors de Solr.

+1

Avez-vous essayé de définir le paramètre stream.type? (c'est-à-dire application/pdf) –

+0

J'ai essayé. N'a pas aidé. Toujours avoir ce problème. – aseem

Répondre

1

J'ai juste traité ce problème pendant des heures avant de le découvrir - j'ouvrais mes fichiers PDF en mode non-binaire, et je les envoyais uniquement au premier caractère EOF du fichier. Solr extraira toujours les métadonnées du fichier (tel qu'il apparaît dans l'en-tête du PDF), mais retournera une balise body vide dans sa réponse.

Ceci peut ne pas s'appliquer à l'affiche originale, mais cela peut vraiment aider quelqu'un d'autre à perdre des heures de sa vie.

+0

Comment ouvrir vos fichiers PDF dans un mode différent? Je me bats les trucs qui sont vides dans Rails en ce moment. – tibbon

Questions connexes