2013-02-13 3 views
0

Selon ma compréhension,Est-ce que pdfbox peut extraire des images vectorielles?

1. .eps format images are vector images. 
2. When we draw something in word (like a flowchart) that is stored 
as a vector image. 

Je suis presque sûr de la première, pas sûr de la seconde. S'il vous plait corrigez moi si je me trompe. En supposant ces deux choses, quand un fichier latex (où les images .eps sont insérées) ou un fichier Word (qui contient des images vectorielles) est converti en pdf, les images sont-elles converties en images raster?

En outre, je pense que PDFBox/xpdf ne peut extraire des images raster du pdf (car ils sont intégrés comme XObjects), et non des images vectorielles. Cette compréhension est-elle correcte? This question dans stackoverflow est associé, mais n'a pas encore reçu de réponse.

Répondre

3

Votre point 1 est incorrect, les fichiers eps sont des programmes PostScript, ils peuvent contenir des informations vectorielles ou des données de texte ou d'image, ou tout ce qui précède. Point 2 Au format PDF, il n'y a pas d'image vectorielle, une image signifie un bitmap et ne peut donc pas être vecteur.

Si vous convertissez un programme PostScript en fichier PDF, le résultat dépend entièrement du programme de conversion que vous utilisez. En général, les vecteurs seront conservés en tant que vecteurs, et le texte en tant que texte. Cependant, il est tout à fait possible qu'une application rende le programme PostScript entier et insère le résultat sous forme d'image dans le fichier PDF.

Ainsi, la réponse à votre première question ("les images sont-elles converties en images raster") est "peut-être, mais probablement pas".

Je crains que je n'ai aucune idée sur les capacités de PDFBox/xpdf, mais étant donné que les collections de vecteurs peuvent ne pas être disposés comme des « images » (ils pourraient avoir lieu en tant que forme XObjects ou modèles) dans tout atomique mode, il n'y a pas de moyen évident de savoir quand arrêter d'extraire. Et quel format stockez-vous le résultat de toute façon?

+0

Merci pour votre réponse. J'ai eu la réponse à ma première question, mais comme je n'ai pas eu la réponse à la deuxième question, je garde cela ouvert en ne l'acceptant pas encore. BTW, est-il un moyen de savoir si nous avons une image vectorielle dans un fichier pdf? Inkscape peut le faire, mais j'ai besoin d'un logiciel batch comme PDFBox/xpdf. – rivu

+1

Nous commençons rapidement à avoir des problèmes de définition avec ce genre de questions. Si une page est vide, contient-elle des opérations de dessin vectoriel (pas des images, s'il vous plaît, celles-ci ont un sens tout à fait différent). Maintenant, que diriez-vous si je dessine un rectangle blanc dessus? Que faire si je dessine un rectangle de couleur, mais à l'extérieur de la boîte de média, ou à l'intérieur de la boîte de média mais à l'extérieur de la boîte de recadrage? Je n'accepterais pas ma réponse ci-dessus car elle ne traite que la moitié de votre problème. Vous devez penser à ce que vous voulez faire avec les opérations de dessin vectoriel, comment vous voulez les stocker après l'extraction. – KenS

Questions connexes