2009-06-17 8 views
0

Je veux être en mesure de déterminer la zone de délimitation des zones de texte, des images et des chemins sur une page PDF, semblable à ce qui est montré ici:La détermination des « boîtes d'intérêt » sur une page PDF

http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html

En regardant la spécification PDF, je peux voir comment déterminer les limites des chemins et des images, mais je ne vois pas comment arriver à eux pour le texte. Dois-je le calculer à la main, déterminer la hauteur et la largeur des glyphes à partir de la taille de la police, etc., ou y a-t-il un moyen plus simple?

Répondre

2

Vous pouvez commencer par la solution "How do I get character offset information from a pdf document?" Cela vous donnera x, y, largeur et hauteur pour les caractères et/ou les sous-chaînes dans le document. De là, le plus difficile est de lier les groupes de caractères dans des régions spatialement distinctes. Il n'y a aucune garantie que le texte groupé spatialement sur une page sera proche l'un de l'autre dans la syntaxe du format de fichier ...

+0

Merci, Chris. Je ne parle pas Perl (et ce n'est pas disponible sur la plate-forme que je vise) mais de ma compréhension limitée, il semble que vous déterminez la largeur des chaînes de texte en examinant les caractères de police par caractère; Je suppose qu'il n'y a pas d'approche de plus haut niveau que cela? Merci également pour l'avertissement concernant la déstructuration du format PDF! – hatfinch

Questions connexes