2015-11-24 1 views
0

Existe-t-il un moyen de prendre une image PDF numérisée et d'extraire des données de l'image en mettant en surbrillance les champs nécessaires? Nous scannons quotidiennement des milliers d'images PDF d'actes immobiliers et souhaitons pouvoir automatiser le processus de saisie des données. Le problème auquel nous sommes confrontés est qu'il n'y a pas deux actions identiques.Extraction de données PDF

+1

Votre nouveau ici et comme il me manque votre code et les erreurs que vous rencontrez. S'il vous plaît lire Comment demander http://stackoverflow.com/help/how-to-ask Et comment créer un exemple minimal, complet et vérifiable http://stackoverflow.com/help/mcve. – davejal

Répondre

0

Il a été dit dans les commentaires que Stackoverflow concerne principalement les problèmes de programmation.

Néanmoins, il existe des possibilités, en fonction des documents réels, et des volumes à traiter. Sur le haut de gamme, il existe un produit appelé Teleform, développé à l'origine par Cardiff et désormais détenu par HP, qui est utilisé pour traiter les formulaires papier; Vous pouvez également consulter l'application Business Process Cardiff LiquidOffice, désormais HP LiquidOffice. Au bas de la page, j'ai développé une application en format PDF, fonctionnant sous Acrobat, qui peut prendre un formulaire numérisé et OCRd, et transférer les données vers un formulaire remplissable spécialement préparé, d'où les données peuvent être exportées vers un base de données, par exemple. Pour plus d'informations, une démo et un devis, n'hésitez pas à me contacter en privé. Si vous souhaitez développer quelque chose en utilisant Acrobat, vous pouvez également commencer par un document OCRd, puis utiliser les fonctionnalités de la fonction Redaction (ou utiliser l'outil de redaction Redax by Appligent) pour trouver des mots-clés, puis utiliser l'information de position de ces mots-clés pour extraire plus de données.