2017-09-15 5 views
3

J'utilise l'option "TEXT_DETECTION" de l'API Google Cloud Vision pour effectuer une reconnaissance optique de caractères.L'API OCR Google Cloud Vision renvoie des valeurs incorrectes pour la boîte/les sommets de délimitation

La zone de délimitation autour des caractères individuels est parfois précise et parfois non, souvent dans la même image.

Est-ce un effet secondaire normal d'une nature probabiliste de l'algorithme de vision, un bug dans l'API Vision, ou bien sûr un problème avec la façon dont j'interprète la réponse?

Image annotated with text and bounding boxes from Google Vision OCR API

The letter "a" with poor bounding box

est ici la partie de la réponse spécifique à la lettre « a » à partir de laquelle j'extraire la boîte de sélection.

stdClass Object 
(
    [property] => stdClass Object 
     (
      [detectedLanguages] => Array 
       (
        [0] => stdClass Object 
         (
          [languageCode] => en 
         ) 

       ) 

     ) 

    [boundingBox] => stdClass Object 
     (
      [vertices] => Array 
       (
        [0] => stdClass Object 
         (
          [x] => 419 
          [y] => 304 
         ) 

        [1] => stdClass Object 
         (
          [x] => 479 
          [y] => 304 
         ) 

        [2] => stdClass Object 
         (
          [x] => 479 
          [y] => 397 
         ) 

        [3] => stdClass Object 
         (
          [x] => 419 
          [y] => 397 
         ) 

       ) 

     ) 

    [text] => a 
) 

Répondre

0

Ici, vous pouvez comparer la sortie de Google vs Azure vs OCR.space .. peut-être les autres fonctionnent mieux à vos besoins? (Mais je doute)

Est-ce un effet secondaire normal de nature probabiliste de l'algorithme de vision, un bogue dans l'API Vision,

De mes tests, tous les services OCR montrent la Même problème qu'aujourd'hui, parfois ils n'arrivent pas à détecter des lettres ou des mots parfaitement fins (tout en détectant des mots similaires dans la même image).

+0

Tim. merci pour votre réponse et le lien, qui devrait être utile. Cependant, ma question portait sur les limites entourant les lettres, et non sur les taux de détection ou la précision. –