Je reçois régulièrement des fichiers PDF encodés. L'encodage fonctionne comme ceci:algorithme de décodage voulu
- les fichiers PDF peuvent être affichés correctement dans Acrobat Reader
- tout sélectionner et copier le test via Acrobat Reader
- et coller dans un éditeur de texte
- montrera que le contenu sont codés
donc, les exemples sont les suivants:
13579 -> 3579;
hello -> jgnnq
C'est essentiellement un décalage (peut-être un échange) de caractères ASCII.
La question est comment puis-je trouver le décalage automatiquement quand j'ai accès à seulement quelques échantillons. Je ne peux pas être sûr que le décalage de codage est changé. Tout ce que je sais, c'est que certains textes apparaissent habituellement (si ce n'est pas toujours), par ex. "Nom:", "Résumé:", "Total:", dans le PDF.
Merci!
modifier: merci pour les commentaires. Je vais essayer de casser la question dans les questions plus petites:
Partie 1: How to detect identical part(s) inside string?
Je viens de corriger "13579 -> 3579;" J'espère que ce que vous voyez est ce que vous vouliez dire. – zaf
il ya un tas de logiciels gratuits qui font cela, cherchez-vous un tel programme ou essayez-vous d'en écrire un vous-même? –
@zaf Je crois, '3579;' est correct. pas '13579;', '9' + 2 est ';' effectivement – YOU