Je suis en train de construire un analyseur et enregistrer les résultats sous forme d'un fichier xml mais j'ai des problèmes ..Python regex sur la liste
Est-ce que vous les experts s'il vous plaît jeter un oeil à mon code?
Traceback: TypeError: expected string or buffer
import urllib2, re
from xml.dom.minidom import Document
from BeautifulSoup import BeautifulSoup as bs
osc = open('OSCTEST.html','r')
oscread = osc.read()
soup=bs(oscread)
doc = Document()
root = doc.createElement('root')
doc.appendChild(root)
countries = doc.createElement('countries')
root.appendChild(countries)
findtags1 = re.compile ('<h1 class="title metadata_title content_perceived_text(.*?)`</h1>', re.DOTALL | re.IGNORECASE).findall(soup)
findtags2 = re.compile ('<span class="content_text">(.*?)</span>', re.DOTALL | re.IGNORECASE).findall(soup)
for header in findtags1:
title_elem = doc.createElement('title')
countries.appendChild(title_elem)
header_elem = doc.createTextNode(header)
title_elem.appendChild(header_elem)
for item in findtags2:
art_elem = doc.createElement('artikel')
countries.appendChild(art_elem)
s = item.replace('<P>','')
t = s.replace('</P>','')
text_elem = doc.createTextNode(t)
art_elem.appendChild(text_elem)
print doc.toprettyxml()
Bonjour Peter; bienvenue à SO. Mettez en surbrillance le code et appuyez sur ctrl-k pour le formater correctement. J'ai essayé d'enlever une partie de l'espace tout en conservant, je l'espère, votre code. Si j'ai fait une erreur, veuillez annuler. – bernie
Aussi, s'il vous plaît poster le retraçage si vous le pouvez; qui montrera la ligne où l'erreur se produit. Merci. – bernie
Je suppose que l'erreur est ici: 're.compile ('....'). Findall (soupe)' –