Extraction de texte de PDF: PDFLib vs PDF extrait vs pdf2xml

Je cherche une bibliothèque (si possible disponible en Java ou PHP) afin d'extraire le texte d'un PDF. Il y a beaucoup de logiciels disponibles, y compris:Extraction de texte de PDF: PDFLib vs PDF extrait vs pdf2xml

3-Heights ™ PDF Extrait http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET - Text Extraction Toolkit http://www.pdflib.com/products/tet/
PDF2XML http://sourceforge.net/projects/pdf2xml/

Quels outils choisiriez-vous? Que penses-tu d'eux?

Nous vous remercions de votre aide!

Source

2010-09-21 charlax

Mon préféré est iText (java) mais l'extraction de texte à partir d'un PDF peut être difficile car le texte du PDF n'est pas toujours stocké dans l'ordre dans lequel il apparaît.

Source

2010-09-23 11:12:49 Jaydee

-1

itext avait du mal à extraire le texte correctement à partir comme indiqué ici le i1040.pdf irs :

< 1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

Autant que je peux comprendre, quand les polices sont incorporées, il n'est pas toujours possible d'extraire le bon texte. Voir: < 2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html < 3> section 9.10 .1: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

< 3> dit:

Si une police est pas définie dans l'une des de cette façon ... les caractères ne peuvent pas être convertis en valeurs Unicode sans informations supplémentaires. Je suppose que la conversion en valeurs Unicode est essentielle pour l'extraction de texte.

Source

2013-11-03 03:26:11

Extraction de texte de PDF: PDFLib vs PDF extrait vs pdf2xml

Répondre

Questions connexes