J'utilise iText java TextExtraction pour lire le texte d'un fichier PDF. J'utilise le code ci-dessous et il fonctionne très bien pour PDF en anglais Maintenant, j'ai PDF contenant des données sous forme d'image. Je souhaite lire les données de cette imageLire les données de l'image en PDF
public class pdfreader {
public static void main(String[] args) throws IOException, DocumentException, TransformerException {
String SRC = "";
String DEST = "";
for (String s : args) {
SRC = args[0];
DEST = args[1];
}
File file = new File(DEST);
file.getParentFile().mkdirs();
new pdfreader().readText(SRC, DEST);
}
public void readText(String src, String dest) throws IOException, DocumentException, TransformerException {
try {
PdfReader pdfReader = new PdfReader(src);
PdfReaderContentParser PdfParser = new PdfReaderContentParser(
pdfReader);
PrintWriter out = new PrintWriter(new FileOutputStream(
dest));
TextExtractionStrategy textStrategy;
for (int i = 1; i <= pdfReader.getNumberOfPages(); i++) {
textStrategy = PdfParser.processContent(i,
new SimpleTextExtractionStrategy());
out.println(textStrategy.getResultantText());
}
out.flush();
out.close();
pdfReader.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
Puis-je extraire une image à partir du PDF en utilisant iText – hrishi
Oui, vous pouvez extraire une image à partir d'un fichier pdf avec iText, puis envoyer cette image à Tessaract, mais ce n'était pas votre question. –
Je pensais d'abord extraire l'image, puis lire les données de l'image – hrishi