J'utilise tesseract pour lire le texte d'une image. Comme mon entrée BinaryImage ne serait pas un simple texte sur un fond blanc uni, j'obtiens seulement 50% comme sortie correcte.Comment nettoyer le texte d'une image avant de lire avec tesseract?
Y a-t-il un moyen de pré-traiter une image pour que je puisse obtenir une sortie correcte de tesseract? J'ai déjà essayé l'échelle de gris et la binarisation de l'image en utilisant Otsu's method, mais il n'y avait aucune amélioration. Comme je fais tout cela en utilisant java, il serait utile que quelqu'un puisse partager les détails de n'importe quelle lib java ou des étapes pour obtenir les meilleurs résultats de tesseract. Je ne reçois pas les docs ImageMagick appropriés pour l'utiliser dans mon code Java. Toute aide à ce sujet est appréciée.
sample image (any wireless bill of AT & T)
Merci de votre aide. J'ai trouvé une bibliothèque java très bien écrite pour le traitement d'image. Je suis capable d'optimiser la sortie maintenant. Je vais expliquer plus dans ma réponse. –