2009-10-23 11 views

Répondre

0

Le PDF ordinaire n'est pas un langage de balisage. Le texte est dessiné à des endroits spécifiques. Il y a quelque chose qui s'appelle Tagged PDF et si vos documents sont étiquetés, votre travail pourrait être plus facile. Je serais enclin à exécuter les documents à l'aide d'un PDF vers un traducteur de texte et à extraire le premier morceau de texte si le texte est stocké sous forme de texte dans votre PDF et non dans des images.

1
print CAM::PDF->new('file.pdf')->getPageText(1); 

vous obtiendrez tout le texte de la page. Mais, CAM :: PDF n'est certainement pas le meilleur outil pour ce travail particulier (je suis l'auteur). J'ai ajouté l'extraction de texte comme un caprice juste pour voir si je pouvais le faire.

Questions connexes