Comment puis-je extraire le premier paragraphe d'un document PDF à l'aide de CAM :: PDF de Perl?

2009-10-23 11 views 1 likes

Comment puis-je extraire le premier paragraphe d'un document PDF en utilisant le CAM::PDF de Perl?Comment puis-je extraire le premier paragraphe d'un document PDF à l'aide de CAM :: PDF de Perl?

Source

2009-10-23 Anonymous

Répondre

Le PDF ordinaire n'est pas un langage de balisage. Le texte est dessiné à des endroits spécifiques. Il y a quelque chose qui s'appelle Tagged PDF et si vos documents sont étiquetés, votre travail pourrait être plus facile. Je serais enclin à exécuter les documents à l'aide d'un PDF vers un traducteur de texte et à extraire le premier morceau de texte si le texte est stocké sous forme de texte dans votre PDF et non dans des images.

Source

2009-10-23 15:03:25

print CAM::PDF->new('file.pdf')->getPageText(1);

vous obtiendrez tout le texte de la page. Mais, CAM :: PDF n'est certainement pas le meilleur outil pour ce travail particulier (je suis l'auteur). J'ai ajouté l'extraction de texte comme un caprice juste pour voir si je pouvais le faire.

Source

2009-10-28 02:46:24

Questions connexes