J'ai un petit script qui utilise urllib2
pour obtenir le contenu d'un site, trouver toutes les balises de lien, ajoute un petit morceau de HTML dans le haut et le bas, puis j'essaie de l'alléger . Il continue à renvoyer TypeError: séquence élément 1: chaîne attendue, balise trouvée. J'ai regardé autour de moi, je ne peux pas vraiment trouver le problème. Comme toujours, toute aide, très appréciée.Je ne peux pas prétendre html gratté dans BeautifulSoup
import urllib2
from BeautifulSoup import BeautifulSoup
import re
reddit = 'http://www.reddit.com'
pre = '<html><head><title>Page title</title></head>'
post = '</html>'
site = urllib2.urlopen(reddit)
html=site.read()
soup = BeautifulSoup(html)
tags = soup.findAll('a')
tags.insert(0,pre)
tags.append(post)
soup1 = BeautifulSoup(''.join(tags))
print soup1.prettify()
Ceci est le retraçage:
Traceback (most recent call last): File "C:\Python26\bea.py", line 21, in <module>
soup1 = BeautifulSoup(''.join(tags))
TypeError: sequence item 1: expected string, Tag found
Eh oui, c'est le retraçage: retraçage (appel le plus récent en dernier): Fichier "C: \ Python26 \ bea.py", ligne 21, dans soup1 = BeautifulSoup (''. Join (balises)) TypeError: élément de séquence 1: chaîne attendue, balise trouvée –
Kevin