La question semble étrange, mais je dois poser cette question, car j'assiste à une sortie assez intéressante lorsque je compare le texte en tant qu'image et graphique en tant qu'image.Différence entre le texte en tant qu'image et les graphiques en tant qu'image
Idéalement, je suis en train d'identifier un outil, ou un algorithme pour comparer deux fichiers PDF, générer une sortie qui mettra en évidence la différence entre eux.
Il existe des possibilités dans les fichiers PDF, qui auront du texte sous forme d'image (les anciens textes sur papier, sont convertis en fichiers PDF).
et nous effectuons la migration de ces fichiers PDF hérités, et enfin nous comparons avec la sortie PDF héritée et convertie. Je suis en train d'évaluer quelques outils comme Adobe DC Pro, i-net pdfc et power pdf etc, pour comparer deux PDFs. Pendant l'évaluation, je peux voir que les images graphiques sont comparées (pas précises non plus) de chaque côté des fichiers PDF. Là où le texte comme les images sont complètement ignorés, unanimement les mêmes résultats dans tous les outils.
Mais je suis plus intéressé par le texte en tant qu'image, puisque nous traitons plus de texte fdfs legacy. Ci-dessous, est joint un résultat de comparaison d'image graphique, où il pourrait être capable de capturer les différences entre les images.
Mais quand je compare l'image de texte, les différences ne sont pas mis en évidence dans l'outil.
Ce que je comprends de ce texte n'est pas comparé sous forme de graphiques d'image, et l'outil est ignorant complètement la comparaison. J'aimerais avoir des précisions si mon hypothèse est correcte.
Deuxièmement, je voudrais savoir comment comparer l'image de texte dans pdfs pour générer les différences ?.
Seuls les auteurs des outils que vous utilisez peuvent répondre à votre première question. OCR répond à la deuxième question ...vous devez détecter le texte (par ses propriétés typiques) OCR il dans les deux images et comparer les chaînes, le formatage etc ... – Spektre