Web scraping avec Python

J'essaye actuellement de gratter un site web qui a un format HTML assez mal formaté (il manque souvent des balises fermantes, pas d'utilisation de classes ou d'ids, donc c'est incroyablement difficile d'aller directement à l'élément que vous voulez, etc.). J'utilise BeautifulSoup avec un certain succès jusqu'à présent, mais de temps en temps (mais rarement), je tombe sur une page où BeautifulSoup crée l'arbre HTML un peu différemment de (par exemple) Firefox ou Webkit. Bien que cela soit compréhensible car le formatage du HTML laisse cette ambiguïté, si j'étais capable d'obtenir le même arbre d'analyse que Firefox ou Webkit produit, je serais capable d'analyser les choses beaucoup plus facilement. Les problèmes sont généralement quelque chose comme le site ouvre une étiquette  deux fois et quand BeautifulSoup voit la deuxième balise , il se ferme immédiatement le premier nid tandis que Firefox et Webkit les  tags.Web scraping avec Python

Y a-t-il une librairie de grattage web pour Python (ou même tout autre langage (je deviens désespéré)) qui peut reproduire l'arbre d'analyse généré par Firefox ou WebKit (ou au moins se rapprocher de BeautifulSoup en cas d'ambiguïté) .

Source

2010-03-07 Jack Edmonds

Pourquoi ne pas utiliser WebKit lui-même? Webkit est open source. Oui, il faudra un peu de temps pour s'y habituer. –

Avez-vous dit au groupe beautifulsoup? Ils sont probablement intéressés par les coins comme le vôtre http://groups.google.com/group/beautifulsoup –

Demandé tant de fois ... –

Utilisez BeautifulSoup comme constructeur de l'arbre pour html5lib:

from html5lib import HTMLParser, treebuilders 

parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup")) 

text = "a<b>b<b>c" 
soup = parser.parse(text) 
print soup.prettify()

Sortie:

<html> 
<head> 
</head> 
<body> 
    a 
    <b> 
    b 
    <b> 
    c 
    </b> 
    </b> 
</body> 
</html>

Source

2010-03-07 23:23:04 jfs

Eh bien, WebKit est open source pour que vous puissiez utiliser son propre analyseur (dans le composant WebCore), si une langue est acceptable

Source

2010-03-07 18:12:48

Vous pouvez conduire un navigateur de votre choix avec SeleniumRC.

Source

2010-03-07 18:18:06

Vous pouvez jeter un oeil sur le module Mechanize:

http://wwwsearch.sourceforge.net/mechanize/

Source

2010-03-07 19:14:11

Ian Bicking a écrit que étonnamment lxml pourrait être mieux à l'analyse syntaxique des soupes que BeautifulSoup: http://blog.ianbicking.org/2008/12/10/lxml-an-underappreciated-web-scraping-library/ (Il suffit de mentionner à titre de référence, pas essayé cela personnellement)

Source

2010-03-07 19:22:25

pyWebKitGTK semble qu'il pourrait être d'une certaine aide.

Voici aussi un mec qui a dû faire la même chose mais obtenir l'exportation du contenu après javascript couru, execute javascript from python using pyWebKitGTK.

pyWebkitGTK au cheeseshop.

Vous pouvez également do this with pyQt.

Source

2010-03-07 19:47:34

Avez-vous essayé scrapy?

Scrapy est un cadre racler écran de haut niveau rapide et exploration du Web, utilisé pour analyser des sites Web et d'extraire des données structurées de leurs pages. Il peut être utilisé pour une large gamme de , de l'exploration de données à la surveillance et aux tests automatisés.

Source

2010-03-28 10:56:28

De la documentation, il semble que l'analyseur ICantBelieveItsBeautifulSoup est ce que vous voulez:

ICantBelieveItsBeautifulSoup est aussi une sous-classe de BeautifulSoup. Il a HTML heuristiques qui se conforment plus étroitement à la norme HTML, mais ignorer comment HTML est utilisé dans le monde réel. Pour exemple, il est valide HTML pour nicher balises, mais dans le monde réel une balise imbriquée signifie presque toujours que l'auteur a oublié de fermer la première balise . Si vous rencontrez quelqu'un qui niche en réalité , alors vous pouvez utiliser ICantBelieveItsBeautifulSoup.

Source

2010-04-19 05:14:03 brofield

celui-ci me semble bon que je l'utilise moi-même: lien [http://code.google.com/p/webscraping/]

Source

2011-05-19 13:42:24 Max

vous pouvez utiliser l'analyseur lxml, dans le beautifulsoup, et vous utilisez xpath pour trouver les données dans une page html non formatée, vous pouvez copier le xpath lorsque vous inspectez un élément en utilisant firebug.

Vous pouvez consulter ce tutoriel: http://www.youtube.com/watch?v=PgWfF-Ut0zM

Source

2012-07-12 00:08:34

Web scraping avec Python

Répondre

Questions connexes