Je voudrais numériser un livre d'une manière similaire au projet reCaptcha. Existe-t-il déjà un système permettant de saisir une image et de sortir de petites images découpées autour des mots? auriez vous des idées pour faire ça?Comment une page numérisée peut-elle être divisée en mots comme le projet reCaptcha?
Répondre
Vous devriez vous pencher sur le projet Tesseract OCR sur lequel repose probablement reCaptcha. Il a la capacité de produire les coordonnées des mots reconnus. Ensuite, vous recadrez la page à ces coords et vous avez terminé.
Si vous souhaitez simplement diviser l'image en plusieurs images d'un mot chacune, vous pouvez essayer de trouver les zones de délimitation des mots, puis prendre ces coordonnées pour le découpage. Cela peut être fait en prenant des histogrammes/projections du document dans le sens horizontal et ensuite pour chaque ligne dans la direction verticale. Un exemple d'algorithme avec quelques images décrivant l'idée peut être trouvé dans cet article: "Décomposition de page de document par la technique de projection de la boîte de délimitation" (http://haralick.org/conferences/71281119.pdf). Vous pourriez implémenter ceci dans OpenCV.
Alternativement, vous pouvez utiliser Tessaract comme mentionné par beppe9000. Peut-être que cela aide:
Mais alors vous obtenez toute la complexité de la formation OCR même si vous ne voulez que les boîtes de délimitation.