2017-09-20 4 views
0

J'ai un PDF public sans restrictions de copie. Cependant, lorsque j'essaie de copier du texte à partir du PDF dans Word, je ne reçois qu'un charabia illisible (comme des boîtes et des symboles).la conversion de pdf en mot montre le contenu de la poubelle

J'ai essayé de changer les polices et cela n'a pas fonctionné. Je ne peux pas comprendre ce qui cause ce problème.

J'ai également cherché des outils en ligne, mais aucun d'entre eux ne semble fonctionner.

Une aide ou des idées?

Cheers.

+0

avant de mettre moins de votes, suggérer un commentaire, il serait bénéfique de savoir ce qui ne va pas. – Keynes

+1

Veuillez partager le fichier PDF en question pour analyse. Les chances sont que le PDF lui-même suggère que le texte en surbrillance est garbage. Dans les fichiers PDF, les chaînes des instructions de dessin de texte sont encodées de manière à s'assurer que les codes de caractères pointent vers les instructions de dessin souhaitées à l'intérieur des polices; Il peut y avoir des informations supplémentaires qui mappent le code de caractère à un point de code Unicode, mais il n'y a aucune garantie que ce mappage va au point de code * correct *. Il existe de nombreux fichiers PDF dans lesquels cette cartographie supplémentaire est incomplète ou même complètement erronée. – mkl

Répondre

3

Si chaque outil (en ligne) vous essayez est incapable de traiter ce document, il y a deux options:

  1. Chaque outil est erroné
  2. Votre document est erroné

Je pense que la conclusion Le n ° 2 a du sens. Mais, permettez-moi d'expliquer ce qui est probablement le coupable. Tout d'abord, vous devriez considérer les documents pdf comme des conteneurs d'instructions plutôt que comme des documents WYSIWYG. Extraire du texte est donc déjà une chose non triviale.

Mais le problème ici semble être un problème de codage. Votre document contient des instructions telles que "draw ب à la position 10, 50". (J'ai utilisé le texte arabe comme exemple.)

Sans plus d'informations, il devient très difficile pour un visualiseur (comme Adobe) de savoir gérer les fonctionnalités de copier-coller. Le tampon de copier-coller sur votre système n'utilise pas de glyphes, mais unicode. En d'autres termes, lors du copier-coller, Adobe doit tenter de convertir des glyphes en unicode réel.

Généralement, une police contient des informations utiles. Nous appelons cela une carte 'toUnicode'. Il indique au système comment certains glyphes correspondent à certains caractères.

Si votre police ne contient pas ce type de mappage, l'utilisation de cette police vous empêchera de créer correctement un copier-coller. Là encore, il y a aussi des programmes qui produisent des cartes erronées à dessein (pour empêcher le copier-coller de ce document).