3

La question semble étrange, mais je dois poser cette question, car j'assiste à une sortie assez intéressante lorsque je compare le texte en tant qu'image et graphique en tant qu'image.Différence entre le texte en tant qu'image et les graphiques en tant qu'image

Idéalement, je suis en train d'identifier un outil, ou un algorithme pour comparer deux fichiers PDF, générer une sortie qui mettra en évidence la différence entre eux.

Il existe des possibilités dans les fichiers PDF, qui auront du texte sous forme d'image (les anciens textes sur papier, sont convertis en fichiers PDF).

et nous effectuons la migration de ces fichiers PDF hérités, et enfin nous comparons avec la sortie PDF héritée et convertie. Je suis en train d'évaluer quelques outils comme Adobe DC Pro, i-net pdfc et power pdf etc, pour comparer deux PDFs. Pendant l'évaluation, je peux voir que les images graphiques sont comparées (pas précises non plus) de chaque côté des fichiers PDF. Là où le texte comme les images sont complètement ignorés, unanimement les mêmes résultats dans tous les outils.

Mais je suis plus intéressé par le texte en tant qu'image, puisque nous traitons plus de texte fdfs legacy. Ci-dessous, est joint un résultat de comparaison d'image graphique, où il pourrait être capable de capturer les différences entre les images.

graphic image

Mais quand je compare l'image de texte, les différences ne sont pas mis en évidence dans l'outil.

text image

Ce que je comprends de ce texte n'est pas comparé sous forme de graphiques d'image, et l'outil est ignorant complètement la comparaison. J'aimerais avoir des précisions si mon hypothèse est correcte.

Deuxièmement, je voudrais savoir comment comparer l'image de texte dans pdfs pour générer les différences ?.

+1

Seuls les auteurs des outils que vous utilisez peuvent répondre à votre première question. OCR répond à la deuxième question ...vous devez détecter le texte (par ses propriétés typiques) OCR il dans les deux images et comparer les chaînes, le formatage etc ... – Spektre

Répondre

4

Je travaille pour l'entreprise qui est l'auteur de i-net PDFC donc je vais répondre à votre première question ainsi:

Votre hypothèse est correcte. i-net PDFC est capable de comparer des images et des formes, mais il ne peut pas détecter si un contenu a complètement changé sa signification, e.G. une forme de ligne utilisée pour dessiner une lettre ou dans votre cas une image qui doit être reconnue comme du texte. Reconnaître l'art ASCII comme image ne fonctionnera pas non plus pour la même raison. De tels cas seront toujours détectés en tant que différences même si leur apparence visuelle est similaire. Sur votre deuxième question: L'utilisation d'un outil de conversion OCR pour un ou les deux documents est une solution courante à ce problème. Une comparaison d'image simple des pages comparées est peu susceptible de fonctionner en raison des différents styles de police et des enveloppes de ligne dans le fichier converti. Veuillez noter que la plupart des applications OCR utiliseront les images de pages restituées pour la reconnaissance. Cela peut entraîner des résultats de reconnaissance incorrects même s'il n'y a pas d'images dans le fichier PDF.

i-net Software est conscient de ce problème général et un module OCR est actuellement en cours de développement. Il fournira une option pour appliquer la reconnaissance uniquement aux images dans les fichiers PDF.

+0

il était note utile de vous, je suis en train d'identifier l'outil différent pour le contenu d'ocr .. si i-net pdfc fournit cet avenir qui fournira certainement une solution complète pour la comparaison pdfs .. rite maintenant nous devons aller pour différents outils pour différentes comparaisons de contenu .. –