Est-il leur moyen d'exécuter des événements de chargement de javascript de la page Web après sraping html, sans aucun navigateur. c'est-à-dire que je dois scrapper le contenu Web rendu via javascript par exemple vedio de la page Web des nouvelles bbc sont rendus via javacscript après le chargement de la page, je suis intéressé à jeter la vidéo et la description de tir. http://www.bbc.co.uk/news/video_and_audio/Dans la page Web de la mémoire de navigation
1
A
Répondre
0
Pour autant que je sache, pas de. Si le contenu est rendu par Javascript, vous avez besoin d'un navigateur. Il est possible d'automatiser un navigateur: http://seleniumhq.org/
0
je fais souvent cela en utilisant WebKit: http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
url = 'http://sitescraper.net'
r = Render(url)
html = r.frame.toHtml()
Questions connexes
- 1. Mémoire de la page Web Augmenter drastiquement
- 2. La barre de navigation n'apparaît pas sur la page Web
- 3. Navigation dans une page Web
- 4. navigation dans la page asp.net
- 5. WinRt navigation de la page
- 6. Empêcher la fermeture ou la navigation d'une page Web
- 7. Silverlight: Effacer la mémoire inutilisée lors de la navigation vers une autre page
- 8. Microsoft expression Web 4 Super Aperçu de la navigation sur la page Web
- 9. navigation hors connexion de page Web
- 10. MVVM Silverlight et la navigation de page
- 11. Navigation au clavier commune (touches d'accès) dans la navigation Web?
- 12. Navigation entre la page
- 13. Navigation de la page enfant à la page parent
- 14. enregistrer la page dynamique pour la navigation
- 15. Vous voulez la page de navigation sur la même page
- 16. Contrôle UIWebView lors de la navigation dans la page
- 17. Maintenir la position du site Web lors de la navigation
- 18. Page de la partie Web SharePoint couvrant la navigation de gauche
- 19. Comment recharger automatiquement la page web de visitora lors de la navigation?
- 20. Navigation dans la page dans WP7 Mango?
- 21. Navigation dans une page Web et envoi de données
- 22. Comment ajouter le nom d'utilisateur à la barre de navigation en haut de la page Web?
- 23. l'avertissement de mémoire provoque la barre de navigation vide
- 24. Ajout de la navigation à partir de la page d'accueil
- 25. UML de la page du site de navigation
- 26. facebook fanpage - Menu de navigation dans la page
- 27. question de surveillance de la page Web
- 28. Obtenir la source de la page Web dans Webbrowser C#
- 29. Lecture de fichiers mp3/wav de la mémoire vers la page Web
- 30. Navigation de la page Web (page .aspx) à partir d'un PC distant
Mais le problème avec seleniummhq est c'est un outil, il doit être utilisé, mais je besoin d'un moyen pour que je pourrait collecter la source html générée après que les événements de chargement aient été exécutés. –