2017-08-22 1 views
1

J'ai un pdf extrait (ms-mot) d'un livre avec des questions quiz qui ressemblent à ceci:Le formatage d'un texte dans un format de jeu-questionnaire en utilisant Python

This is question 1 
    A. answer A 
    B. answer B 
>C. answer C 
    D. answer D 

que je dois transformer en un format ressemblera:

This is question 1 
    A. answer A 
    B. answer B 
    C. answer C 
    D. answer D 
    ANSWER: C 

Le problème est que scannée et converti « > » signe n'est pas toujours précis et peut parfois être une lettre ou un caractère spécial, etc. en outre, il a des questions fichier numérisé dans deux colonnes par page, côte à côte.

Existe-t-il un moyen d'atténuer ces problèmes en python?

Répondre

0

Si vous pouvez lire la ligne de fichier par ligne et divisé sur le séparateur de colonne dans la doc, vous pouvez appliquer la logique suivante:

import re 
if re.match('^[A-D]\.', row[0]): 
    write txt to output 
if re.match('^.A\.', row[0]): 
    write txt[1:] to output 
    write next 3 lines to output 
    write 'ANSWER: A' to output 
if re.match('^.B\.', row[0]): 
    write txt[1:] to output 
    write next 2 lines to output 
    write 'ANSWER: B' to output 
...etc