2009-09-11 8 views
1

Je cherche un moyen de déterminer les N caractères ASCII les plus "différents" ou "reconnaissables" ... Par exemple, si N = 10, quels seraient les N caractères les plus différents dans l'ensemble ASCII de 0x21 à 0x7E? Évidemment, le caractère "X" est très différent de "O" (la lettre), mais "O" (la lettre) est très similaire à "0" (zéro). En supposant qu'un sous-ensemble de caractères OCR restreint, tel que zéro et la lettre O seraient détectés comme l'un ou l'autre seulement, et que l'on n'ait pas à s'inquiéter de savoir si c'était un zéro ou une lettre O, quel serait le N différent? caractères que les moteurs OCR typiques (par exemple Tesseract) reconnaissent facilement à partir d'une image d'entrée de mauvaise qualité? Hypothèses. tels que "+" et "t" pourraient largement être confondus les uns avec les autres. peut être fait, et donc chaque caractère d'entrée, que ce soit "+" ou "t" ne correspondrait qu'à l'un ou l'autre.OCR - la plupart des caractères ASCII "différents" ou "reconnaissables"?

Merci, Ben

+0

Je pense que le choix des caractères dépend de la méthode utilisée pour les reconnaître. Pourquoi veux-tu faire cela? – Amok

+0

En fait, je pense que cela dépendrait plus de FONT qu'autre chose ... –

+3

Il n'est également pas très utile de poser la question pour des lettres individuelles, car les erreurs OCR confondent souvent "d" avec "cl", "m" avec "rn", etc. – ShreevatsaR

Répondre

4

Malheureusement, je ne pense pas qu'il y aura une seule réponse unique pour cela. Cela dépendra de la police: Comparez les différentes façons de représenter 0, f, s et les styles stylistiques. Cela dépendra du type de dommages que les personnages reçoivent avant d'être analysés, certains peuvent être plus résistants contre le maculage, d'autres contre les coupures, d'autres contre l'écrasement.

Si vous recherchez une représentation qui soit la meilleure pour l'impression, la numérisation et l'OCR, alors peut-être qu'un code à barres 1D ou 2D serait un meilleur choix?

1

Une seule façon de répondre à cette question: le tester. Créez un ensemble d'échantillons pour chaque lettre et lancez l'OCR sur chaque échantillon. Les lettres qu'OCR obtient le plus souvent les plus «reconnaissables»; les lettres que l'OCR se trompe le plus souvent sont les plus "différentes".

Questions connexes