2011-02-16 1 views

Répondre

2

Cela dépend de la façon dont il a été transformé. De nombreuses applications OCR placent le texte sous l'image d'une manière ou d'une autre. Certains le font en posant le texte d'abord en plaçant l'image sur le dessus. Certains placent l'image sur le fond puis placent le texte sur le dessus en utilisant le mode de transfert "ne marque pas". Je mentionne cela parce que je ne peux pas prédire comment un outil d'extraction de texte particulier répondra au texte transparent. En théorie, il devrait juste vous donner le texte (c'est ce que fait Acrobat). Si cela se produit dans la réalité à travers tous les outils d'extraction de texte est la conjecture de quelqu'un.

+0

Merci, cette réponse était la plus proche de ce que je demandais (que je n'ai clairement pas demandé correctement). Un PDF transformé par OCR n'est pas différent d'un PDF non-OCR aussi loin que le format PDF. Le processus OCR scanne simplement les images et ajoute le texte au PDF. J'ai utilisé Aspose pour extraire du texte et je voulais m'assurer que rien de mal ne se produirait si un PDF non-OCR était donné à mon programme. – enamrik

0

Il existe un certain nombre de SDK commerciaux pour la gestion de fichiers pdf. http://www.foxitsoftware.com/pdf/sdk/activex/ Voici le renard.

+0

Ma question est de savoir si les fichiers PDF transformés à l'aide de certains logiciels OCR sont traités différemment d'un PDF normal. Ou est un PDF transformé par OCR juste un PDF avec plus de texte au lieu d'images. Je ne connais pas grand-chose de la structure PDF. – enamrik