Je veux écrire une araignée pour explorer un html. J'utilise requests
et beautifulsoup
, mais je viens de découvrir que beautifulsoup ne peut pas analyser toute la page. Au lieu de cela, Beautifulsoup n'en analyse que la moitié. Voici mon code:Beaultifusoup ne peut pas analyser tout le html
import requests
from bs4 import BeautifulSoup as bs
urls = ['http://www.bishefuwu.com/developer/transmit','http://www.bishefuwu.com/developer/transmit/index/p/2.html']
html = requests.get(urls[0]).content
soup = bs(html,'lxml')
table = soup.find('tbody')
trs = table.find_all('tr')
for tr in trs:
r = tr.find_all('td')[:3]
for i in map(lambda x:x.get_text(),r):
print i
et c'est the origin page, qui a row "13107", mais mon araignée a juste la moitié, ma rangée arrête à "13192". Pour tester, je sauvegarde manuellement le fichier html d'origine demandé par requests
et je viens de trouver que tout allait bien. Cette erreur est sur Beautifulsoup. Comment puis-je le résoudre? Merci
Appréciez beaucoup! – ucag