2014-04-24 2 views
0

J'ai besoin de chercher beaucoup de PDF OCR. Je me suis rendu compte que les mots et les phrases sont parfaits visuellement, mais si je copie un coller le contenu, il y a des espaces qui ne devraient pas être là!Expression Regex pour la recherche de mots espacés/brisés dans les PDF OCR (goo d ni g ht)

Je peux voir dans le texte: good night

Si je copier et coller quelque part: goo d ni g ht

Je vous serais reconnaissant de conseils pour gérer cette situation par une expression Regex considérant:

a) simple, exemple pour les mots courts comme \bgood night\b pour goo d ni g ht

b) Quand il y a un saut de ligne dans la phrase. Je veux dire, l'expression Regex n'est pas capable de rechercher d'une ligne à l'autre dans le PDF, même le paragraphe est le même. Dans la recherche de \bthe sun set and the night comes\b, mais le contenu PDF est comme ça quand collé:

ligne 1: t he sun set an d th e

ligne 2: nig ht co m es

Un grand merci, Cadu

+0

Comment envisagez-vous d'effectuer le remplacement? –

+0

En fait, je cherche une expression pour ignorer les "espaces" entre les mots et les phrases, puisque je cherche la phrase exacte \ ble coucher du soleil et la nuit vient \ b considérant que ces espaces fous pourraient exister n'importe où. Je ne suis pas concerné par le remplacement, mais juste pour trouver si les mots/phrases existent dans le texte/PDF. Merci! – carloscadux

+0

pouvez-vous fournir un exemple de fichier (brut) pas copier coller? –

Répondre

0

Cette occurence aléatoire des espaces au milieu des mots peuvent arriver en PDF. La raison derrière cela est le format complexe que PDF est réellement. Vous voyez, un document PDF est en fait un conteneur d'instructions pour rendre le texte dans un visualiseur.

Imaginez des instructions comme:

  • aller à la position 50, 50.
  • dessiner le caractère 'G'
  • aller à la position 56, 50.
  • dessiner le caractère 'O'
  • etc

Chaque fois que vous sélectionnez quelque chose dans une visionneuse (par exemple, Ad obe), le programme doit déterminer quel contenu chevauche votre sélection (déjà ce n'est pas un problème facile). Si c'est du texte, il faut alors décider où ajouter des espaces et des sauts de ligne. Différents utilisateurs (ou logiciels) peuvent utiliser différentes métriques pour cela. Un exemple typique est "insérer un espace si deux caractères sont plus éloignés que la largeur du caractère espace dans la même police"

Le fait est que le fait de sortir un document PDF est toujours une conjecture. Et si vous ajoutez le fait qu'il s'agit d'un PDF OCR, vous ajoutez une couche supplémentaire de difficultés.

Questions connexes