2016-12-09 2 views
2

Je suis à la recherche d'un moyen d'examiner par programmation un dessin cad pdf, plaine 2D impression, et retirer toutes les dimensions ainsi que les emplacements des dimensions sur la page. Je suis à la recherche de technologies qui me permettront de faire cela. Je suis un peu familier avec tesseract, et je l'ai appris à reconnaître des formes étranges de gd & t ainsi que de créer un langage qui élimine la confusion des erreurs ocr courantes telles que les 1 vs vs. Une solution qui extrairait tous les "blocs de texte" ou "blocs d'image avec du texte" du dessin PDF pour que je puisse les faire passer en tesseract avec ce langage serait également idéale.extraire les dimensions du PDF en utilisant OCR

également à la recherche LEADTOOLS, PDFBox, iText, TET, Adobe SDK. Essayer de faire une comparaison entre eux. Je suis particulièrement intéressé par la reconnaissance des dimensions/nombres et des formes avec précision et l'API doit avoir la capacité d'extraire des informations de localisation. Toute expérience passée avec l'un de ceux-ci ou un aperçu utile sur les bons/mauvais serait grandement appréciée!

Répondre

0

Nous pouvons fournir des informations pertinentes sur la partie LEADTOOLS de votre question, car il s'agit de notre produit.

Si le fichier PDF contient du texte réel et non seulement une image de texte, vous pouvez l'extraire directement sans passer par OCR. Pour ce faire, utilisez the Leadtools.Pdf.PDFDocument.ParsePages() method. Si vous traitez des images contenant à la fois des zones de texte et des zones autres que du texte, vous pouvez utiliser Leadtools.ImageProcessing.Core.AutoZoningCommand pour isoler les zones de texte (zones) et obtenir leurs coordonnées. Vous pouvez ensuite utiliser notre moteur OCR ou votre propre code. Si vous essayez ceci et que vous n'obtenez pas de résultats satisfaisants, il pourrait y avoir d'autres options avancées pour vous aider, mais nous pourrions avoir besoin de voir des échantillons réels avec lesquels vous travaillez. Si vous le souhaitez, envoyez quelques exemples de fichiers à notre adresse d'assistance et mentionnez ce que vous avez essayé jusqu'à présent.

0

Si un en ligne API est OK, https://ocr.space/ocrapi est gratuit, renvoie des informations de localisation détaillées et accepte le format PDF.

{ 
     "ParsedResults" : [ 
      { 
       "TextOverlay" : { 
        "Lines" : [ 
         { 
          "Words": [ 
           { 
           "WordText": "Word 1", 
           "Left": 106, 
           "Top": 91, 
           "Height": 9, 
           "Width": 11 
           },