Je suis en train d'extraire des données à partir de la page suivante:Alternative à innerhtml qui inclut l'en-tête?
qui, commodément et assez inefficacement, comprend toutes les données intégrées dans un fichier csv dans l'en-tête, défini comme variable appelée gs_csv.
Comment l'extraire? Document.body.innerhtml
ignore l'en-tête où les données sont, quelle est l'alternative qui inclut l'en-tête (ou mieux encore, la valeur associée à gs_csv
)?
(désolé, nouveau à tout cela, j'ai été la recherche à travers des tas de documentation, et en essayant beaucoup d'entre eux, mais rien n'a fonctionné jusqu'à présent).
Merci à Sinan (c'est principalement sa solution transcrite en Python).
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit
(lien omis, car je suis un débutant.) Si elle aide, ceci est un script python, comme suit importation win32com.client temps import import os importation os.path ie = Dispatch ("InternetExplorer.Application") ie.Visible = True -à-dire .Navigate ("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#") temps. sleep (20) webpage = ie.document.body # .innerHTML logfilepath = "p: \\ mes documents \\ Python \\ webpagetmp.txt" log_file = ouvert (LogFilePath, "wb") log_file.write (page web) log_file.close() page web d'impression ie.quit – Brendan
Pouvez-vous faire une demande http, obtenir toute la chaîne, et grep les en-têtes? – DonkeyMaster