J'ai essayé d'écrire cette araignée pendant des semaines mais sans succès. Quelle est la meilleure façon pour moi de coder ce en Python:Comment écrire une araignée simple en Python?
1) url initiale: http://www.whitecase.com/Attorneys/List.aspx?LastName=A
2) depuis l'URL initiale ramasser ces urls avec ce regex:
hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')
[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....
3) Allez à chacune de ces URL et grattez les informations de l'école avec cette regex
hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'
[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em> , Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest grades in Comparative Constitutional History, Legal Drafting, Real Property and Sales, ', u'2007']
4) Ecrire l'info école gratté dans le fichier schools.csv
Pouvez-vous me aider à écrire cette araignée en Python? J'ai essayé de l'écrire dans Scrapy mais sans succès. Voir mon précédent question.
Merci.
http://www.ibm.com/developerworks/linux/library/l-spider/ ce lien ne fonctionne plus ... –