J'ai besoin d'extraire le texte d'un pdf pour valider un certain contenu et compter le nombre d'images dans le document pdf en utilisant java. Je peux obtenir le contenu du texte sans problèmes en utilisant la fonction getText ci-dessous, mais ne peux pas trouver un moyen de compter uniquement sur les objets image. J'ai été en mesure d'obtenir un compte de tous les objets en utilisant le code ci-dessous, mais je ne trouve pas de doco sur la façon de ne compter que les images. Toutes les idées seraient très appréciées. Mercicount images en pdf en utilisant pdfbox
static String getText(File pdfFile) throws IOException {
PDDocument doc = PDDocument.load(pdfFile);
return new PDFTextStripper().getText(doc);
}
static void countImages(File pdfFile) throws IOException{
PDDocument doc = PDDocument.load(pdfFile);
List myObjects = doc.getDocument().getObjects();
System.out.println("Count: " + myObjects.size());
doc.close();
}
cela ne tient pas un assez grand nombre de places images peuvent être. De plus, il n'y a aucune garantie qu'une image dans les ressources d'une page est réellement utilisée. – mkl
@mkl Intéressant mais vague. Pourquoi ne partagez-vous pas vos perles de sagesse et postez une meilleure réponse? J'ai utilisé mon approche pour seulement deux cas de test qui devaient s'assurer qu'un pdf spécifique contenait une image ou pas. Comme cela a fonctionné de manière fiable, je n'ai pas plongé plus profondément dans ce sujet. –
@ Würgspaß jetez un oeil sur le code source ExtractImages dans le téléchargement du code source ou ici https://svn.apache.org/viewvc/pdfbox/trunk/tools/src/main/java/org/apache/pdfbox/tools/ ExtractImages.java?view=markup –