Ma question est similaire à celle posée ici: https://stackoverflow.com/questions/14599485/news-website-comment-analysis Je suis en train d'extraire des commentaires de tout article de nouvelles. Par exemple. J'ai une URL de nouvelles ici: http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/ J'essaye d'employer BeautifulSoup en python pour extraire les commentaires. Cependant, il semble que la section de commentaire soit incorporée dans un iframe ou chargée via javascript. L'affichage de la source via firebug ne révèle pas la source de la section des commentaires. Mais visualiser explicitement la source des commentaires à travers la fonction view-source du navigateur. Comment procéder pour extraire les commentaires, en particulier lorsque les commentaires proviennent d'une autre URL intégrée à la page d'actualités?Extrait des commentaires des articles de nouvelles
C'est ce que je l'ai fait jusqu'à présent, bien que ce n'est pas grand-chose:
import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
Toute aide à ce que je dois faire ou comment aller à ce sujet sera très appréciée.
Vous aurez besoin d'essayer quelque chose comme sélénium à imiter les capacités javascript du navigateur aussi. –
@SnakesandCoffee vous n'avez pas besoin de js pour le cas spécifique. C'est juste un iframe, vous pouvez télécharger toute la page. –