Je prévois de créer un site Web qui récupère beaucoup d'URL mises à jour quotidiennement (JavaScript) provenant de nombreux sites Web. Je l'ai fait des recherches et a trouvé le sélénium, déjà un code pour extraire une URL d'un site Webselenium scraping javascript
from selenium import webdriver
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.get("http://example.com")
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click()
element = driver.find_element_by_xpath("""//*[@id="s"]""")
element.send_keys("example")
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click()
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click()
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click()
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src");
print elem
mais après quelques recherches, j'ai découvert que le sélénium principalement utilisé comme cadre d'essais non pour gratter et ramper! .. mon question est peut sélénium faire le travail? si oui, comment exécuter le code python dans un bouton HTML? J'utilise aussi Django. si non, pourriez-vous recommander quelque chose qui peut faire la tâche?
peut-il gratter javascript sites activés? – cockro
vous pouvez utiliser scrapy avec splash pour le crawling site Web javascript – coolboy920
https://github.com/scrapy-plugins/scrapy-splash – coolboy920