Utilisation de C# pour rechercher OCR (recherche) PDF

Je dois extraire le texte d'un fichier PDF qui a déjà été transformé à l'aide d'un programme OCR. Est-ce que j'utilise un PDFReader normal pour obtenir le texte ou un PDF transformé par OCR nécessite-t-il un traitement spécial?Utilisation de C# pour rechercher OCR (recherche) PDF

Source

2011-02-16 enamrik

Cela dépend de la façon dont il a été transformé. De nombreuses applications OCR placent le texte sous l'image d'une manière ou d'une autre. Certains le font en posant le texte d'abord en plaçant l'image sur le dessus. Certains placent l'image sur le fond puis placent le texte sur le dessus en utilisant le mode de transfert "ne marque pas". Je mentionne cela parce que je ne peux pas prédire comment un outil d'extraction de texte particulier répondra au texte transparent. En théorie, il devrait juste vous donner le texte (c'est ce que fait Acrobat). Si cela se produit dans la réalité à travers tous les outils d'extraction de texte est la conjecture de quelqu'un.

Source

2011-02-16 20:08:39 plinth

Merci, cette réponse était la plus proche de ce que je demandais (que je n'ai clairement pas demandé correctement). Un PDF transformé par OCR n'est pas différent d'un PDF non-OCR aussi loin que le format PDF. Le processus OCR scanne simplement les images et ajoute le texte au PDF. J'ai utilisé Aspose pour extraire du texte et je voulais m'assurer que rien de mal ne se produirait si un PDF non-OCR était donné à mon programme. – enamrik

Il existe un certain nombre de SDK commerciaux pour la gestion de fichiers pdf. http://www.foxitsoftware.com/pdf/sdk/activex/ Voici le renard.

Source

2011-02-16 17:11:21 VoronoiPotato

Ma question est de savoir si les fichiers PDF transformés à l'aide de certains logiciels OCR sont traités différemment d'un PDF normal. Ou est un PDF transformé par OCR juste un PDF avec plus de texte au lieu d'images. Je ne connais pas grand-chose de la structure PDF. – enamrik

Utilisation de C# pour rechercher OCR (recherche) PDF

Répondre

Questions connexes