2011-07-30 6 views
3

Disons que j'ai une image en noir et blanc d'un document avec seulement 2 ou 3 polices utilisées. L'un des 3 est utilisé pour le titre et un autre est une petite police (ou au moins, très simple). Par exemple, l'un des petits bouts de texte pourrait être:ROC et distinction entre 2 ou 3 polices

Fancy/Bolded/Italicized/Script font: The Best Soup In The World 
Plain/small: Made with tap water, salt, and sugar. 

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World 
Plain/small: Made with flour, tap water, salt, and sugar. 

Je ne suis pas besoin d'un grand système OCR fantaisie qui peut me dire que « Best Soup » utilise une police de fantaisie particulière avec Italique/etc. J'ai juste besoin d'un système qui peut me dire que "Best Soup" est formaté différemment de "l'eau du robinet", que "Best Soup" et "Sandwich" utilisent probablement la même mise en forme, et "Sandwich" est plus grand eau."

Je vais utiliser Tesseract pour effectuer la détection OCR et la boîte de délimitation (http://www.mail-archive.com/[email protected]/msg02157.html), si cela est pertinent.

Y at-il quelque chose que je peux utiliser pour faire cette classification de formatage simple?

Edit:

Y at-il là-bas qui va le faire sans me coûter un bras et une jambe?

Répondre

1

Je ne suis pas sûr que tesseract puisse résoudre la tâche que vous décrivez, mais je crois que le bon moteur ocr devrait détecter les styles de police. Par exemple, ABBYY OCR SDK peut non seulement identifier le style de police gras/italique, mais il peut également définir la police appropriée à utiliser dans la sortie. En fonction de ce que vous décrivez, vous essayez de déterminer la hiérarchie du style de document, comme les niveaux d'en-tête, etc. ABBYY FineReader Engine fournit cette fonctionnalité et vous n'avez pas à utiliser la routine de style textuel &. En outre, il offre la meilleure qualité ocr et c'est gratuit à essayer. Envisagez de l'essayer si vous planifiez un logiciel commercial. Je travaille @ ABBYY et peux vous fournir plus d'informations sur notre SDK OCR si nécessaire.

Meilleures salutations.

+0

Merci d'avoir fourni une réponse utile tout en poussant tranquillement votre entreprise. :) À ce moment, je n'ai pas encore décidé si je vais charger ou non, je continuerai à envisager d'autres possibilités. –

Questions connexes