2011-03-02 7 views
10

Je suis intéressé par l'utilisation de l'OCR pour extraire des mots gras et italiques d'un texte simple. Par exemple, si je entrer une image claire avec le texte comme ceci: «Le rapide brun renard saute sur le paresseux chien »Puis-je utiliser l'OCR pour détecter le style de police (gras, italique)?

Je voudrais obtenir une sortie comme ceci: gras (« brun », « saute »), italique (« paresseux »)

Je l'ai regardé en faisant cela avec ocropus ou Tesseract, mais la documentation est pauvre et je ne peux pas dire si c'est possible, ou comment le faire si c'est le cas.

Répondre

9

Il existe une telle fonction dans Tesseract 3.0.1, à partir du réseau. Une nouvelle classe est ajoutée à l'API - ResultIterator, qui a la fonction suivante vous intéresse:

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id). 

En fait, vous pouvez le voir vous-même de here.

+0

Nouvelle URL: https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –

Questions connexes