Je dois entrer l'image et les coordonnées. Le texte présent dans la coordonnée d'entrée doit être lu comme sortie. Comment faire cela en utilisant node-tesseract?Tesseract - Comment extraire le texte de l'image pour les coordonnées d'entrée?
Répondre
Vous devez regarder dans le fichier .hocr retourné par Tesseract (vous pouvez google hocr pour plus d'informations d'abord). Le .hocr inclut toute la boîte englobante du texte (x, y, largeur, hauteur, langue, etc.). Ensuite, calculez toutes les cases situées à l'intérieur des coordonnées que vous obtenez d'entrée.
Référence: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/
Mise à jour:
J'ai fait quelques recherches pour vous. Ici, vous êtes le "meilleur" (la plupart des étoiles) repo github en Javascript que vous pouvez trouver sur Github
https://github.com/search?utf8= ✓ & q = Tesseract + langue% 3Ajavascript
et le meilleur est tesseract.js
avec plus de 10000 étoiles et encore avoir récemment engage
https://github.com/naptha/tesseract.js
la partie I est mis en surbrillance .hocr
(tesseract.js
nommaient html
)
Je sais que c'est un vieux fil, mais j'avais la même exigence, n'a pas pu trouver une solution, donc j'ai modifié le module et affiché sur Git:
Le fichier .hocr est-il présent lorsque nous utilisons node-tesseract également? (paquet obtenu à partir de npm) Comment y accéder? – Amy
mis à jour ma réponse, je n'écris pas nodejs et utilise node-tesseract, donc je ne peux pas vous donner de réponse à ce sujet. –