2010-09-21 5 views
3

Je cherche une bibliothèque (si possible disponible en Java ou PHP) afin d'extraire le texte d'un PDF. Il y a beaucoup de logiciels disponibles, y compris:Extraction de texte de PDF: PDFLib vs PDF extrait vs pdf2xml

Quels outils choisiriez-vous? Que penses-tu d'eux?

Nous vous remercions de votre aide!

Répondre

3

Mon préféré est iText (java) mais l'extraction de texte à partir d'un PDF peut être difficile car le texte du PDF n'est pas toujours stocké dans l'ordre dans lequel il apparaît.

-1

itext avait du mal à extraire le texte correctement à partir comme indiqué ici le i1040.pdf irs :

< 1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

Autant que je peux comprendre, quand les polices sont incorporées, il n'est pas toujours possible d'extraire le bon texte. Voir: < 2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html < 3> section 9.10 .1: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

< 3> dit:

Si une police est pas définie dans l'une des de cette façon ... les caractères ne peuvent pas être convertis en valeurs Unicode sans informations supplémentaires. Je suppose que la conversion en valeurs Unicode est essentielle pour l'extraction de texte.

Questions connexes