J'ai essayé de faire OCR dans R (lire les données PDF quelles données comme image balayée). J'ai lu à ce sujet @http://electricarchaeology.ca/2014/07/15/doing-ocr-within-r/Faire OCR avec R
Ceci est un très bon article.
Efficacement 3 étapes:
- convertir pdf en ppm (format d'image)
- convertir ppm en TIF prêt pour Tesseract (en utilisant ImageMagick pour convertir)
- convertir TIF dans un fichier texte
Le code efficace pour les 3 étapes ci-dessus selon le message de liaison:
lapply(myfiles, function(i){
# convert pdf to ppm (an image format), just pages 1-10 of the PDF
# but you can change that easily, just remove or edit the
# -f 1 -l 10 bit in the line below
shell(shQuote(paste0("F:/xpdf/bin64/pdftoppm.exe ", i, " -f 1 -l 10 -r 600 ocrbook")))
# convert ppm to tif ready for tesseract
shell(shQuote(paste0("F:/ImageMagick-6.9.1-Q16/convert.exe *.ppm ", i, ".tif")))
# convert tif to text file
shell(shQuote(paste0("F:/Tesseract-OCR/tesseract.exe ", i, ".tif ", i, " -l eng")))
# delete tif file
file.remove(paste0(i, ".tif"))
})
Les deux premières étapes se passent bien. (bien que prenant beaucoup de temps, pour 4 pages d'un pdf, mais examinera plus tard la partie d'évolutivité, d'abord essayer si cela fonctionne ou pas)
Tout en courant cela, les deux premières étapes fonctionnent bien.
Alors que runinng la 3e étape, i.e.
shell(shQuote(paste0("F:/Tesseract-OCR/tesseract.exe ", i, ".tif ", i, " -l eng")))
I ayant cette erreur:
Error: evaluation nested too deeply: infinite recursion/options(expressions=)?
Ou Tesseract se bloque. Toute solution de contournement ou d'analyse des causes profondes serait appréciée.
pouvez-vous donner le contenu de 'myfiles'? – bdecaf
@bdecaf - Malheureusement, je ne peux pas, en raison de problème de sécurité des données. Essentiellement ses états financiers des entreprises (image numérisée) qui est à l'intérieur du pdf (4 pages). Ce seul pdf est dans mes fichiers. Ce n'est pas un problème (c'est ce que je pense, mais plus d'un problème de tesseract –
@r_analytics Avez-vous trouvé une solution à votre problème? –