2009-07-01 5 views
1

Je suis à la recherche d'un utilitaire ou d'une bibliothèque pour extraire du texte à partir de fichiers PDF et le mettre en forme en texte brut tout en conservant le plus possible la disposition d'origine (tables, colonnes, etc.).conversion PDF en format ASCII - quel est l'état de l'art?

Nous utilisons actuellement pdftotext mais je me demandais s'il y avait quelque chose de mieux. Il doit s'agir d'un outil de ligne de commande ou d'une bibliothèque que nous pouvons lier à notre application.

Est-ce que pdftotext est aussi bon que ça, ou y at-il quelque chose de mieux?

+0

Il y a beaucoup de bibliothèque de pdf ... Juste google il. –

Répondre

1

Pour le bénéfice des autres avec le même problème: Nous avons fini par rester avec pdftotext malgré ses inconvénients (comme la production de déchets parfois lorsque des sous-ensembles de polices sont utilisés).

Voir aussi: http://www.glyphandcog.com/textext.html

0

AbiWord avait un projet SoC pour cela il y a un certain temps. IIRC, il a fait du bon travail pour recréer des documents, des tableaux et des chiffres multicolonnes. Il y a aussi une interface de ligne de commande.

0

Une partie du problème est que je pense que certains des outils plus simples manipulation pdf/création ne correspondent pas du texte, mais enregistrer le texte dans le cadre d'un fichier pdf statique comme image. Pour ces fichiers, vous devrez utiliser OCR.

Questions connexes