selenium scraping javascript

-1

Je prévois de créer un site Web qui récupère beaucoup d'URL mises à jour quotidiennement (JavaScript) provenant de nombreux sites Web. Je l'ai fait des recherches et a trouvé le sélénium, déjà un code pour extraire une URL d'un site Webselenium scraping javascript

from selenium import webdriver 
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe" 
driver = webdriver.Chrome(chrome_path) 
driver.get("http://example.com") 
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click() 
element = driver.find_element_by_xpath("""//*[@id="s"]""") 
element.send_keys("example") 
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click() 
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click() 
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click() 
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src"); 
print elem

mais après quelques recherches, j'ai découvert que le sélénium principalement utilisé comme cadre d'essais non pour gratter et ramper! .. mon question est peut sélénium faire le travail? si oui, comment exécuter le code python dans un bouton HTML? J'utilise aussi Django. si non, pourriez-vous recommander quelque chose qui peut faire la tâche?

Source

2017-02-01 cockro

Si vous voulez vraiment faire un scrapper, je vous recommande d'utiliser Beautiful soup, qui est une bibliothèque Python pour extraire des données de fichiers HTML et XML. vous pouvez intégrer le script Python avec django qui peut être déclenché sur un clic. suivant est le lien.

https://pypi.python.org/pypi/beautifulsoup4

Source

2017-02-01 17:50:44 coolboy920

peut-il gratter javascript sites activés? – cockro

vous pouvez utiliser scrapy avec splash pour le crawling site Web javascript – coolboy920

https://github.com/scrapy-plugins/scrapy-splash – coolboy920

selenium scraping javascript

Répondre

Questions connexes