2017-02-01 4 views
-1

Je prévois de créer un site Web qui récupère beaucoup d'URL mises à jour quotidiennement (JavaScript) provenant de nombreux sites Web. Je l'ai fait des recherches et a trouvé le sélénium, déjà un code pour extraire une URL d'un site Webselenium scraping javascript

from selenium import webdriver 
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe" 
driver = webdriver.Chrome(chrome_path) 
driver.get("http://example.com") 
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click() 
element = driver.find_element_by_xpath("""//*[@id="s"]""") 
element.send_keys("example") 
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click() 
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click() 
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click() 
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src"); 
print elem 

mais après quelques recherches, j'ai découvert que le sélénium principalement utilisé comme cadre d'essais non pour gratter et ramper! .. mon question est peut sélénium faire le travail? si oui, comment exécuter le code python dans un bouton HTML? J'utilise aussi Django. si non, pourriez-vous recommander quelque chose qui peut faire la tâche?

Répondre

0

Si vous voulez vraiment faire un scrapper, je vous recommande d'utiliser Beautiful soup, qui est une bibliothèque Python pour extraire des données de fichiers HTML et XML. vous pouvez intégrer le script Python avec django qui peut être déclenché sur un clic. suivant est le lien.

https://pypi.python.org/pypi/beautifulsoup4

+0

peut-il gratter javascript sites activés? – cockro

+0

vous pouvez utiliser scrapy avec splash pour le crawling site Web javascript – coolboy920

+0

https://github.com/scrapy-plugins/scrapy-splash – coolboy920