Je suis à la recherche d'un moyen d'examiner par programmation un dessin cad pdf, plaine 2D impression, et retirer toutes les dimensions ainsi que les emplacements des dimensions sur la page. Je suis à la recherche de technologies qui me permettront de faire cela. Je suis un peu familier avec tesseract, et je l'ai appris à reconnaître des formes étranges de gd & t ainsi que de créer un langage qui élimine la confusion des erreurs ocr courantes telles que les 1 vs vs. Une solution qui extrairait tous les "blocs de texte" ou "blocs d'image avec du texte" du dessin PDF pour que je puisse les faire passer en tesseract avec ce langage serait également idéale.extraire les dimensions du PDF en utilisant OCR
également à la recherche LEADTOOLS, PDFBox, iText, TET, Adobe SDK. Essayer de faire une comparaison entre eux. Je suis particulièrement intéressé par la reconnaissance des dimensions/nombres et des formes avec précision et l'API doit avoir la capacité d'extraire des informations de localisation. Toute expérience passée avec l'un de ceux-ci ou un aperçu utile sur les bons/mauvais serait grandement appréciée!