2011-09-30 8 views
-3

Je veux faire un petit programme qui utilisera chaque mot quelque chose-sens de n'importe quel site Web Il est destiné à être en python et j'ai entendu parler de BeautifulSoup mais je ne sais pas trop comment l'utiliser à cet effet ... petit tutoriel? : p Ou est-ce aussi simple qu'une regex? comme: re.compile('<.*>(.*)<.*>') donc tout entre les parenthèses? nouvelles lignes et des choses est déjà fait;)Python écran gratter tout le site Web

Thanx à l'avance les gars et désolé pour l'anglais mineur ...

+2

Qu'est-ce que "quelque chose-sens"? –

+0

Cela ne semble pas du tout avoir un lien avec le HTML ... et pourriez-vous fournir un peu plus d'informations sur ce que signifie chaque "mot signifiant quelque chose"? – element119

+0

Disons que pour quelque chose, je veux dire que vous voulez aller sur ce site, sélectionnez-le, puis collez-le dans notapad ... il n'y a pas besoin d'un balisage – user973760

Répondre

1

Scrapy rend facile exploration du Web. Il a également une excellente documentation et scrapy startproject commande va construire un projet squelette pour vous.

1

MechanizeMechanize est une bibliothèque python qui vous permet d'effectuer des requêtes http et fournit même une certaine capacité à analyser le code HTML et à extraire les données que vous recherchez. Sa principale caractéristique est qu'il peut agir comme un navigateur et gérer des choses comme l'authentification et les cookies.

Regex n'est pas idéal lorsque vous travaillez avec XML/HTML (vous verrez). Vous pouvez utiliser BeautifulSoup en combinaison avec mechanize si vous préférez cette bibliothèque d'analyse. Apprendre des choses comme XPath peut aussi vous simplifier la vie.

Les deux mechanize et BeautifulSoup ont des tutoriels là-bas, alors commencez à lire du code!

Questions connexes