J'ai besoin de chercher beaucoup de PDF OCR. Je me suis rendu compte que les mots et les phrases sont parfaits visuellement, mais si je copie un coller le contenu, il y a des espaces qui ne devraient pas être là!Expression Regex pour la recherche de mots espacés/brisés dans les PDF OCR (goo d ni g ht)
Je peux voir dans le texte: good night
Si je copier et coller quelque part: goo d ni g ht
Je vous serais reconnaissant de conseils pour gérer cette situation par une expression Regex considérant:
a) simple, exemple pour les mots courts comme \bgood night\b
pour goo d ni g ht
b) Quand il y a un saut de ligne dans la phrase. Je veux dire, l'expression Regex n'est pas capable de rechercher d'une ligne à l'autre dans le PDF, même le paragraphe est le même. Dans la recherche de \bthe sun set and the night comes\b
, mais le contenu PDF est comme ça quand collé:
ligne 1: t he sun set an d th e
ligne 2: nig ht co m es
Un grand merci, Cadu
Comment envisagez-vous d'effectuer le remplacement? –
En fait, je cherche une expression pour ignorer les "espaces" entre les mots et les phrases, puisque je cherche la phrase exacte \ ble coucher du soleil et la nuit vient \ b considérant que ces espaces fous pourraient exister n'importe où. Je ne suis pas concerné par le remplacement, mais juste pour trouver si les mots/phrases existent dans le texte/PDF. Merci! – carloscadux
pouvez-vous fournir un exemple de fichier (brut) pas copier coller? –