Je dois extraire le texte d'un fichier PDF qui a déjà été transformé à l'aide d'un programme OCR. Est-ce que j'utilise un PDFReader normal pour obtenir le texte ou un PDF transformé par OCR nécessite-t-il un traitement spécial?Utilisation de C# pour rechercher OCR (recherche) PDF
Répondre
Cela dépend de la façon dont il a été transformé. De nombreuses applications OCR placent le texte sous l'image d'une manière ou d'une autre. Certains le font en posant le texte d'abord en plaçant l'image sur le dessus. Certains placent l'image sur le fond puis placent le texte sur le dessus en utilisant le mode de transfert "ne marque pas". Je mentionne cela parce que je ne peux pas prédire comment un outil d'extraction de texte particulier répondra au texte transparent. En théorie, il devrait juste vous donner le texte (c'est ce que fait Acrobat). Si cela se produit dans la réalité à travers tous les outils d'extraction de texte est la conjecture de quelqu'un.
Il existe un certain nombre de SDK commerciaux pour la gestion de fichiers pdf. http://www.foxitsoftware.com/pdf/sdk/activex/ Voici le renard.
Ma question est de savoir si les fichiers PDF transformés à l'aide de certains logiciels OCR sont traités différemment d'un PDF normal. Ou est un PDF transformé par OCR juste un PDF avec plus de texte au lieu d'images. Je ne connais pas grand-chose de la structure PDF. – enamrik
- 1. Utilisation de Kofax avec C# pour OCR
- 2. Lecture à partir d'un pdf avec recherche, sans ocr
- 3. Utilisation avancée de Tesseract OCR
- 4. Comment ajouter caché ocr Texte en PDF
- 5. Utilisation de la tâche parallèle C# dans une application OCR?
- 6. tesseract ocr multipage pdf se bloque
- 7. Remplacement OCR pour MODI
- 8. Utilisation de tesseract OCR dans android
- 9. Tesseract OCR en C#
- 10. Recherche de SDK OCR pour les formulaires et les documents
- 11. Expression Regex pour la recherche de mots espacés/brisés dans les PDF OCR (goo d ni g ht)
- 12. Utilisation de LIKE pour rechercher un nom
- 13. Meilleure résolution pour Tesseract-OCR
- 14. Utilisation de VoiceOver pour les fichiers PDF
- 15. OCR pour Windows Mobile
- 16. Rechercher dans PDF, indexer?
- 17. besoin d'aide dans C# OCR
- 18. Utilisation d'expressions régulières en C# pour rechercher un motif récurrent
- 19. OCR pour la police connue
- 20. Bibliothèque OCR pouvant réinsérer le texte OCR dans le fichier PDF source
- 21. Moteur de recherche pour rechercher des API
- 22. recherche rapide et gratuit (aucun gpl) pdf lib pour C++
- 23. Bon opensource OCR en C#
- 24. Bibliothèque OCR pour Blackberry
- 25. Recherche de texte PDF
- 26. Recherche avancée Utilisation de la recherche Hibernate
- 27. Utilisation de ruby pour modifier un PDF
- 28. Utilisation de XFDF pour le pdf
- 29. Utilisation de la couche de service du serveur de recherche pour rechercher des entités
- 30. Indexation et recherche de contenu pdf
Merci, cette réponse était la plus proche de ce que je demandais (que je n'ai clairement pas demandé correctement). Un PDF transformé par OCR n'est pas différent d'un PDF non-OCR aussi loin que le format PDF. Le processus OCR scanne simplement les images et ajoute le texte au PDF. J'ai utilisé Aspose pour extraire du texte et je voulais m'assurer que rien de mal ne se produirait si un PDF non-OCR était donné à mon programme. – enamrik