2011-08-09 5 views
45

Comment extraire le texte du document PDF en utilisant PHP?Comment extraire du texte à partir du document PDF?

(je ne peux pas utiliser d'autres outils, je n'ai pas accès root)

J'ai trouvé des fonctions de travail pour le texte brut, mais ils ne gèrent pas bien les caractères Unicode:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

+0

avez-vous résolu ce? –

+0

Le lien ne fonctionne pas! rectifiez s'il vous plaît! – cwiggo

+12

Je ne vois pas pourquoi cette question est considérée hors-sujet car elle est très utile, même si elle peut attirer des réponses «opiniâtres», il est toujours préférable de voir différents points de vue. A beaucoup de hits aussi. – user3574492

Répondre

43

Téléchargez le class.pdf2text.php @https://pastebin.com/dvwySU1a (Mis à jour le 5 Avril 2014) ou http://www.phpclasses.org/browse/file/31030.html (Inscription obligatoire)

code:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output(); 

La classe ne fonctionne pas avec tous les PDF que je l'ai testé, lui donner un essai et vous pouvez avoir de la chance :)


Si cela ne fonctionne pas, essayez http://pdfparser.org/

+2

si ici est une table dans le fichier pdf, alors il ne l'affiche pas. Je veux extraire comme il affiche en pdf aussi le texte de l'image scannée joint au pdf. une solution pour ça ?? –

+0

Merci beaucoup ... Cette classe est très utile. En cela, je veux juste une URL de pdf. Un moyen de trouver ça ...? –

+0

La classe inclut un vidage du tampon de sortie pouvant provoquer des erreurs 'en-têtes déjà envoyés'. Apparemment pas de mauvais effets si vous le désactivez (pour toute taille raisonnable de document). –

9

Je sais que ce sujet est assez ancien, mais ce besoin est toujours vivant. J'ai lu de nombreux documents, forum et scénario et construire une nouvelle avancée qui prend en charge pdf compressé et non compressé:

https://gist.github.com/smalot/6183152

Hope it helps everone

+0

Ne semble pas obtenir de sortie avec votre script. Avez-vous un PDF avec lequel il pourrait être testé? –

+0

Cela a fonctionné pour moi! Merci – kakoma

+0

J'en ai trouvé un bon ici: https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh

Questions connexes