J'ai un document PDF en grand nombre, dont j'ai besoin d'extraire du texte. Le texte extrait que j'utilise pour un traitement ultérieur. Je l'ai fait pour un petit sous-ensemble de documents en utilisant l'API de Tesseract dans une approche linéaire et j'obtiens la sortie requise. Cependant, cela prend beaucoup de temps quand j'ai un grand nombre de documents.Nécessité de mettre en œuvre l'extraction de fichiers PDF en vrac à l'aide de l'API Tesseract
J'ai essayé d'utiliser les fonctionnalités de traitement de l'environnement Hadoop (Map-Reduce) et de stockage (HDFS) pour résoudre ce problème. Cependant, je suis confronté à un problème pour implémenter l'API Tesseract dans l'approche Hadoop (Map-Reduce). Comme Teserract convertit les fichiers en fichiers image intermédiaires, je suis confus quant à la façon dont les fichiers Image de résultats intermédiaires de Tesseract-API-process peuvent être traités dans HDFS.
J'ai cherché et essayé en vain quelques options plus tôt comme:
Je texte extrait de PDF en étendant la classe FileInputFormat dans ma propre classe PdfInputFormat utilisant Hadoop-Map-Reduce, pour ce que j'ai utilisé Apache PDFBox pour extraire le texte du pdf, mais quand il s'agit de pdf scanné qui contient l'image, cette solution ne me donne pas les résultats requis.
J'ai trouvé quelques réponses sur le même sujet indiquant d'utiliser -Fuse et cela aidera ou devrait générer des fichiers image localement et que les télécharger dans hdfs pour un traitement ultérieur. Je ne sais pas si c'est la bonne approche.
Aimeriez-vous connaître les approches autour de cela.
Apache Tika rend les fichiers avec Apache PDFBox, puis effectue l'OCR avec tesseract, peut-être que c'est pour vous ... –
@TilmanHausherr Merci pour la réponse. Est-ce que je pourrais faire ce travail dans l'approche Map Reduce?Veuillez élaborer/partager quelques exemples si possible. – Bonson
Désolé, je ne peux pas aider avec le reste. Je suis venu ici seulement à cause de PDFBox. –