2009-04-21 9 views
4

Je veux être capable de lire le contenu des fichiers pdf. Je dois faire ça avec C sur Linux. Le plus proche je peux obtenir à ceci était here mais je pense que Haru peut seulement créer le pdf et n'est pas capable de les lire (pas sûr à 100%).Lire Pdf avec C

PS: Je ne le texte brut besoin de pdf

Répondre

4

Check out libpoppler. Je ne l'ai jamais utilisé pour extraire du texte, juste pour interroger des attributs PDF. C'est assez facile à utiliser.

+0

Je pense que libpoppler est trop "gros" pour ce que je veux. Il utilise QT et d'autres choses que je pense que c'est inutile. –

+0

Poppler a des frontaux facultatifs pour glib et Qt (pour s'adapter joliment dans leurs systèmes d'objets), mais n'est pas nécessaire. – eduffy

+0

Ok! J'ai vu que c'est déjà sur les dépôts Ubuntu. J'y jetterais un œil. –

1

Dans quelle mesure vous devez les analyser? Juste l'extraction des chaînes devrait être relativement facile, le rendu entièrement précis est plus difficile. Jetez un oeil à la source pour evince ou ghostscript?

Ceci est pour C++, mais peut-être un bon point de départ pour la structure PDF compréhension http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (lien désolé mal avant)

+0

J'ai seulement besoin du texte clair des dossiers de pdf. –

+0

Je ne crois pas que cela fonctionne pour C – TStamper

+0

Désolé collé mauvais lien - avait trop de fenêtres ouvertes! –

0

Une autre possibilité, bien que je ne l'ai jamais utilisée est VersyPDF. Il prétend vous permettre d'éditer des PDFs ... http://versypdf.sybrex-systems-ltd.qarchive.org/

+0

J'ai oublié de mentionner que travailler sous Linux est obligatoire. –