J'ai tout un tas d'images de documents officiels des années 1930-40, à la fois couleur et B, qui sont de qualité médiocre (généralement généralement < 250 kB). Ce sont des photos de formulaires standard utilisés par les institutions officielles telles que les hôpitaux et les municipalités et similaires, qui ont été remplis à la main ou par machine à écrire avec des informations personnelles. J'ai placé deux exemples typiques à la fin de ce post. (Notez que ce sont des formulaires vides - je préfère ne pas placer ceux avec des informations personnelles en ligne.)Pré-traitement d'image et mise en grappe en utilisant SciKit-Image et SciKit-Learn - quelques conseils nécessaires
Ce que je dois faire est de commander la collection de sorte que tous les documents du même type sont regroupés. Je ne sais pas combien de types différents il y a. Alternativement, je pourrais d'abord essayer d'essayer de trouver toutes les instanciations d'un type de document particulier. J'imagine que la première approche est une approche de regroupement, tandis que la seconde est une approche de similarité. En ce qui concerne l'approche de clustering, mon idée est (1) de prétraiter les images pour améliorer les informations utiles, (2) extraire un vecteur de caractéristiques de chaque image, et (3) alimenter ces algorithmes en un algorithme de clustering. Je veux utiliser les bibliothèques SciKit-Image et SciKit-Learn pour ces trois tâches. J'ai fait un peu de recherche et de lecture pour me familiariser avec le sujet et les possibilités, mais je ne sais pas par où commencer et j'ai quelques questions de base.
- Pré-traitement. Quelles sont les méthodes qui se sont avérées utiles? Il y a tellement d'options: binarisation, grayscaling, Redressement, débruitage, brouillant, recadrage, mise à l'échelle, ...
- Extraction de caractéristiques. J'imagine qu'il est utile de saisir les caractéristiques les plus intéressantes d'une image (coins, lignes, grilles, images, logos) dans un vecteur de caractéristiques - en d'autres termes, si les caractéristiques sont basées sur des points d'intérêt. Encore une fois, existe-t-il des méthodes spécifiques qui se sont révélées utiles à cet égard? Quelle est la meilleure façon de représenter une image en tant que vecteur de caractéristiques, et comment puis-je extraire les caractéristiques intéressantes?
- Clustering. Je vois que SciKit-Learn propose plusieurs algorithmes de clustering. Lesquelles seraient les plus appropriées pour ma tâche? Et lesquels sont les plus appropriés pour commencer - quelque chose comme k-means?
En ce qui concerne la tâche de similarité, je n'ai pas une idée claire de la façon d'aborder cela, ou si cela est possible. Toute aide est la bienvenue ...
Je me rends compte que c'est une question assez large. En général, j'aimerais savoir si mon approche a du sens et si elle peut donner des résultats utiles. De plus, j'apprécierais grandement les indications sur les exemples, les pipelines existants ou les bons conseils généraux!
Exemples:
Excellent! Cela vient le plus proche de la solution que je cherche. J'ai joué avec Tesseract mais je ne connaissais pas Pytesseract. – rdv