2016-09-06 1 views
0

J'essaye d'analyser un pdf en python et d'extraire une chaîne entre guillemets. Je suis capable d'extraire le texte entre guillemets mais je veux aussi extraire le nom avant que la citation ne commence. Par exemple: Considérez ceciExtraction de la chaîne avant les citations

Ziblatt, Daniel. 2004. «Repenser les origines du fédéralisme: puzzle, théorie et preuves de l'Europe du XIXe siècle»

Je suis capable d'extraire toutes les citations, mais je veux aussi que le nom soit extrait. Ce est le code que je utilise .. S'il vous plaît aider

def quotes(x): 
    quoted = re.compile('"[^"]*"') 
    for value in quoted.findall(x): 
     print value 

Répondre

1

la capture des données avant un guillemet devrait fonctionner:

def quotes(x): 
    quoted = re.compile('(.+)"[^"]+"') 
    for value in quoted.findall(x): 
     print value.strip() 

Je reçois ce ouput:

>>> quotes(text) 
'Ziblatt, Daniel. 2004.'