J'essaye de remplir une feuille de google à partir de données que je suis en train de gratter de wikipedia. (Je traiterai le fichier robots.txt plus tard, j'essaie juste de comprendre comment faire cela conceptuellement.) Mon code est ci-dessous. J'essaye de mettre la page en tant que chaîne, puis lancer une recherche regexp mon but est d'isoler les spécifications sur la page et au moins les stocker comme une valeur, mais j'ai un problème de recherche de la page continue à ne pas trouverEssayer de faire correspondre une expression régulière sur un site Web en utilisant Mechanize et python
Soyez gentil, je suis un noob - Merci d'avance pour votre aide
import mechanize
import re
import gspread
br = mechanize.Browser()
pagelist=["https://en.wikipedia.org/wiki/Tesla_Model_S"]
wheelbase = ''
length =''
width= ''
height =''
pages=len(pagelist)
i=0
br.open(pagelist[0])
page = br.response()
print page.read()
pageAsaString = str(page.read())
match = re.search('Wheelbase',pageAsaString)
if match:
print 'found', match.group()
else:
print 'did not find'
Merci! la page d'impression était-elle lue provoquant un problème de tampon? –
aussi merci pour le recc - lire maintenant! –
Vous êtes les bienvenus. Ce fut un bon début pour moi. Après un peu plus de lecture, Mechanize a l'air d'être un wrapper de fantaisie autour de ['urllib2'] (https://docs.python.org/2/library/urllib2.html). Ainsi, quand il obtient une réponse, il [renvoie un objet semblable à un fichier] (https://docs.python.org/2/library/urllib2.html#urllib2.urlopen). Ainsi, appeler 'read()' l'épuise, un peu comme un fichier sur votre système. Les appels ultérieurs à 'read()' commencent là où le dernier s'est arrêté - à la fin du tampon. :) –