Comment puis-je extraire le premier paragraphe d'un document PDF en utilisant le CAM::PDF de Perl?Comment puis-je extraire le premier paragraphe d'un document PDF à l'aide de CAM :: PDF de Perl?
1
A
Répondre
0
Le PDF ordinaire n'est pas un langage de balisage. Le texte est dessiné à des endroits spécifiques. Il y a quelque chose qui s'appelle Tagged PDF et si vos documents sont étiquetés, votre travail pourrait être plus facile. Je serais enclin à exécuter les documents à l'aide d'un PDF vers un traducteur de texte et à extraire le premier morceau de texte si le texte est stocké sous forme de texte dans votre PDF et non dans des images.
1
print CAM::PDF->new('file.pdf')->getPageText(1);
vous obtiendrez tout le texte de la page. Mais, CAM :: PDF n'est certainement pas le meilleur outil pour ce travail particulier (je suis l'auteur). J'ai ajouté l'extraction de texte comme un caprice juste pour voir si je pouvais le faire.
Questions connexes
- 1. Comment utiliser les documents PDF 1.6 dans le fichier CAM :: PDF de Perl?
- 2. Comment extraire des graphiques vectoriels d'un document pdf?
- 3. PDF document manipulation
- 4. Est-ce que CAM :: PDF de Perl est capable d'agréger des objets d'annotation?
- 5. Briser le document PDF après 100 pages
- 6. pdf paragraphe ou blocs de positions de texte
- 7. Comment extraire des données d'un PDF?
- 8. tcpdf - commence par le document PDF existant
- 9. Comment obtenir l'orientation du texte d'une chaîne de texte dans une page PDF en utilisant CAM :: PDF?
- 10. Comment fusionner des fichiers PDF avec Perl?
- 11. Sélection de pages à partir du document PDF
- 12. Comment faire référence à l'interface PDF IFilter (dll) intégrée à Windows pour extraire le texte et les propriétés d'un document pdf via Classic ASP
- 13. Ajouter une zone de texte illimitée à un document PDF
- 14. Extraire toutes les images du fichier pdf
- 15. Modification des propriétés d'un document PDF
- 16. Ajouter PDF à un PDF signé
- 17. Comment puis-je obtenir la largeur et la hauteur d'une chaîne de texte avec CAM :: PDF?
- 18. Déplacement d'éléments sur un document PDF
- 19. Utilisation d'EPiServer pour publier un document PDF
- 20. Comment définir la couleur de la police avec le module Perl PDF :: API2?
- 21. Comment extraire une image d'un fichier pdf en utilisant C#
- 22. Comment puis-je extraire des images à partir d'un fichier PDF?
- 23. Création PDF automatisée à partir de l'URL
- 24. Comment obtenir des informations de décalage de caractères à partir d'un document PDF?
- 25. Comment télécharger le fichier à partir de Seam PDF
- 26. Créer un fichier PDF à remplir à partir du PDF
- 27. Comment puis-je extraire le titre d'un PDF crypté en PHP?
- 28. Comment puis-je obtenir l'orientation de la page d'une page PDF?
- 29. iTextSharp peut-il ouvrir un document RTF, le manipuler et exporter le document au format PDF?
- 30. Comment puis-je ajouter une image à un emplacement X, Y spécifique à l'aide de PDF :: API2 de Perl?