2010-07-22 3 views
2

Je sais qu'il y avait quelques questions à ce sujet.Obtenez le texte brut du fichier PDF

J'ai besoin d'un framework/script/solution pour obtenir du texte brut à partir d'un fichier PDF par php.

Existe-t-il une solution pour obtenir du texte brut à partir d'un fichier PDF?

(Et oui, j'ai cherché cette heure, c'est la dernière chance).

Répondre

1

Sur le système Linux, il suffit d'utiliser pdftotext (avec shell_exec)

echo `pdftotext in.pdf out.txt`; 

PS: Jetez un coup d'oeil sur ce article, je ne sais pas s'il est utile ou non.

+0

Qu'en est-commencial webhostings? Je ne peux pas installer les applications Linux sur le serveur. – Martin

+0

Si elles n'ont pas désactivé la fonction 'shell_exec' (et sa famille), vous pouvez simplement télécharger le fichier exécutable et l'exécuter. – Ehsan

0

Je crois que vous pourriez travailler quelque chose en utilisant le google docs API qui gère l'OCR.

Il convertit une image à PlainText de sorte que vous devez d'abord convertir le pdf à l'image avec Ghostscript et ImageMagick ou autre chose

Questions connexes