2010-07-04 5 views
1

actuellement j'ai une araignée écrite en Java qui se connecte dans un site Web de fournisseur et des araignées le site Web. (En utilisant HtmlUnit)Comment faire pour spider un site protégé par mot de passe en python?

Il maintient la session (cookies) et permet même me activer/désactiver javascript etc.

J'utilise aussi HTMLParser (java) pour aider à analyser le code html et d'extraire les informations pertinentes.

Est-ce que python a quelque chose de similaire à faire?

Répondre

4

Python a urllib2 pour explorer des pages, ce qui prend en charge l'authentification par mot de passe et les cookies.

Il existe également un HTMLParser pour l'extraction de code HTML, mais certaines personnes préfèrent le format plus complet BeatifulSoup.

+0

très cool, je suis vraiment excité par toutes les choses python! – Blankman

+3

Ce qui est _really_ cool, c'est que ce sera environ un millionième de la quantité de code Java que vous deviez écrire;) – Stephen

+0

en effet, c'est exactement ce que je voulais dire. – Blankman

1

Scrapy API utilise urllib2 plus ajoute des fils à certains parseurs et routines auxiliaires différents.

Questions connexes