J'essaye d'analyser du HTML en Python. Il y avait quelques méthodes qui fonctionnaient réellement avant ... mais de nos jours je ne peux rien utiliser sans solutions de contournement.Python html analyse qui fonctionne réellement
- beautifulsoup a des problèmes après SGMLParser est parti
- html5lib ne peut pas analyser la moitié de ce qui est « là-bas »
- lxml essaie d'être « trop correct » pour html typique (attributs et les balises ne peuvent pas contenir des espaces de noms inconnus, ou une exception est levée, ce qui signifie que presque aucune page avec Facebook connect ne peut être analysée)
Quelles sont les autres options disponibles ces jours-ci? (si elles supportent xpath, ce serait génial)
Vous devez nous donner des exemples de pages sur lesquelles vos approches actuelles échouent. Sinon, comment saurons-nous si nos solutions proposées résoudront vos problèmes? Aussi, n'oubliez pas de signaler les bugs html5lib à http://code.google.com/p/html5lib/issues/entry –