2013-05-16 2 views

Répondre

3

Pour ceux qui pourraient être encore intéressés. Sur le site Web de Tesseract, il existe des ensembles de données standard pour différents fichiers.

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

Procédure de formation est décrit ici (pour la version 3,01)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

En cas de Cube est un autre moteur en comparaison avec Tesseract, il consomme plus de ressources, plus lent, mais donne de meilleurs résultats.

Fichiers de données - ensemble de fichiers, qui devraient finalement être intégrés (fusionnés) dans le fichier de données de formation.

2

Il y a une explication des différents dossiers de formation requis par le mode moteur Cube sur le Tesseract-ocr-extradocs wiki du projet:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

Vous y trouverez des informations détaillées (mais incomplète) sur la façon dont pour créer les fichiers nécessaires à la formation en mode Cube. Il y a aussi des informations sur le format de fichier de réseau de neurones qui pourraient être utiles:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

mode Cube souvent vous donnera de meilleurs résultats de reconnaissance en utilisant les réseaux de neurones au lieu du classificateur adaptatif.

Je n'ai jamais créé de fichiers de formation Cube par moi-même, je ne peux donc pas vous fournir d'informations plus détaillées sur la création de ces fichiers.