J'utilise BeautifulSoup et urllib2 pour télécharger des pages HTML et les analyser. Le problème est avec les pages HTML mal formées. Bien que BeautifulSoup soit bon pour manipuler le HTML mal formé, ce n'est pas aussi bon que Firefox. Considérant que Firefox ou Webkit sont plus à jour et résilient à gérer le HTML, je pense qu'il est idéal de les utiliser pour construire et normaliser l'arbre DOM d'une page et ensuite le manipuler via Python.Utiliser Gecko/Firefox ou Webkit pour obtenir l'analyse HTML en python
Cependant, je ne peux pas trouver de liaison python pour le même. Quelqu'un peut-il suggérer un moyen?
J'ai rencontré quelques solutions pour exécuter un processus sans tête de Firefox et le manipuler via python, mais existe-t-il une solution plus pythonique disponible.
pourrait-il que vous utilisez belle soupe 3.1 qui « fait bien pire sur HTML dans le monde réel que la version 3.0.7a ne »? [1] a dû analyser des choses récemment moi-même et a constaté que 3.0.7 gère vraiment les choses beaucoup mieux. utilisez easy_install pour passer à la version 3.0.7a: sudo easy_install beautifulsoup == 3.0.7a [1] http://www.crummy.com/software/BeautifulSoup/3.1-problems.html –