Créer un ensemble de données simple pour former un réseau de neurones pour le texte imprimé OCR

Je veux former un réseau de neurones pour reconnaître le texte d'une seule police sur le papier (Times Roman). Puis-je m'en tirer avec un seul échantillon d'entraînement pour chaque personnage? Mon raisonnement est que la police ne varierait pas par opposition à une police écrite à la main. La seule chose qui peut changer est l'angle, et la luminosité que je peux nettoyer avant d'en déduire après que mon modèle soit entraîné. Ou est-ce que je manque quelque chose?Créer un ensemble de données simple pour former un réseau de neurones pour le texte imprimé OCR

Source

2017-10-03 mskw

Cela dépend de l'origine de votre entrée. Si l'entrée va être des captures d'écran et la police est toujours la même, (y compris la taille de la police, l'audace, etc.) et toujours dans les mêmes couleurs. Alors vous pouvez probablement partir avec seulement un ensemble. Si vous travaillez avec des scanners ou des photos, vous risquez de vous retrouver avec des caractères partiellement tronqués, des caractères déformés à cause des virages dans la page ou des photographies 3D hors-angle, des taches sur la page et des millions d'autres différences mineures. Vous pouvez essayer de les nettoyer avant de les envoyer à OCR, mais votre fonction de nettoyage devra être plus avancée que votre fonction OCR pour que cela fonctionne. Il est donc probablement plus facile d'utiliser différents ensembles d'apprentissage pour votre réseau neuronal OCR.

Source

2017-10-03 21:32:44

Créer un ensemble de données simple pour former un réseau de neurones pour le texte imprimé OCR

Répondre

Questions connexes