2016-12-19 2 views

Répondre

0

Vous devez regarder dans le fichier .hocr retourné par Tesseract (vous pouvez google hocr pour plus d'informations d'abord). Le .hocr inclut toute la boîte englobante du texte (x, y, largeur, hauteur, langue, etc.). Ensuite, calculez toutes les cases situées à l'intérieur des coordonnées que vous obtenez d'entrée.

Référence: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

Mise à jour:

J'ai fait quelques recherches pour vous. Ici, vous êtes le "meilleur" (la plupart des étoiles) repo github en Javascript que vous pouvez trouver sur Github

https://github.com/search?utf8= ✓ & q = Tesseract + langue% 3Ajavascript

et le meilleur est tesseract.js avec plus de 10000 étoiles et encore avoir récemment engage

https://github.com/naptha/tesseract.js

enter image description here

la partie I est mis en surbrillance .hocr (tesseract.js nommaient html)

+0

Le fichier .hocr est-il présent lorsque nous utilisons node-tesseract également? (paquet obtenu à partir de npm) Comment y accéder? – Amy

+0

mis à jour ma réponse, je n'écris pas nodejs et utilise node-tesseract, donc je ne peux pas vous donner de réponse à ce sujet. –

0

Je sais que c'est un vieux fil, mais j'avais la même exigence, n'a pas pu trouver une solution, donc j'ai modifié le module et affiché sur Git: