Disons que j'ai une image en noir et blanc d'un document avec seulement 2 ou 3 polices utilisées. L'un des 3 est utilisé pour le titre et un autre est une petite police (ou au moins, très simple). Par exemple, l'un des petits bouts de texte pourrait être:ROC et distinction entre 2 ou 3 polices
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
Je ne suis pas besoin d'un grand système OCR fantaisie qui peut me dire que « Best Soup » utilise une police de fantaisie particulière avec Italique/etc. J'ai juste besoin d'un système qui peut me dire que "Best Soup" est formaté différemment de "l'eau du robinet", que "Best Soup" et "Sandwich" utilisent probablement la même mise en forme, et "Sandwich" est plus grand eau."
Je vais utiliser Tesseract pour effectuer la détection OCR et la boîte de délimitation (http://www.mail-archive.com/[email protected]/msg02157.html), si cela est pertinent.
Y at-il quelque chose que je peux utiliser pour faire cette classification de formatage simple?
Edit:
Y at-il là-bas qui va le faire sans me coûter un bras et une jambe?
Merci d'avoir fourni une réponse utile tout en poussant tranquillement votre entreprise. :) À ce moment, je n'ai pas encore décidé si je vais charger ou non, je continuerai à envisager d'autres possibilités. –