2017-09-20 15 views
0

J'essaye d'analyser un pdf en utilisant Smalot PDF Parser mais le problème est que le texte n'est pas bien formaté. Il montre des espaces entre les lettres de mots.
Par exemple: Le mot "Letter" s'écrit "L e tt e r". Comment je peux le corriger?
En outre, la documentation fournie par Smalot PDF Parser n'est pas suffisante. J'ai besoin de plus de documentation pour la mise en œuvre détaillée de PDF Parser. Veuillez me donner plus de documentation si quelqu'un l'a. Merci!Erreur au format Texte lors de l'analyse PDF à l'aide de l'analyseur PDF Smalot

Répondre

0

Il est toujours difficile d'extraire du texte à partir d'un fichier PDF. C'est parce que les documents PDF ne sont pas un format WYSIWYG, vous devriez les considérer davantage comme un conteneur d'instructions. Extraire du texte signifie «rejouer» ces instructions pour trouver quelles lettres sont dessinées à quelles positions, puis appliquer des heuristiques pour déterminer des choses comme «ces lettres sont proches les unes des autres, elles doivent être concaténées».

Faut-il que ce soit php?

+0

Oui monsieur. Ça devrait être en php. Je ne sais pas comment appliquer des heuristiques. S'il vous plaît envoyez-moi un code. –

+0

StackOverflow n'est pas une société d'externalisation. Vous ne pouvez pas demander du code sans nous montrer ce que vous avez fait vous-même. –

+0

Je vais vous montrer ce que vous exigez. S'il vous plaît dites ce que je peux montrer? –