Je travaille sur un petit script Python pour nettoyer les documents HTML. Cela fonctionne en acceptant une liste de balises à GARDER, puis en analysant les balises HTML qui ne sont pas dans la liste. J'ai utilisé des expressions régulières pour le faire et j'ai réussi à faire correspondre des balises d'ouverture et des balises à fermeture automatique. mais ne ferme pas les tags. Le modèle que j'ai expérimenté pour faire correspondre les tags de fermeture est </(?!a)>
. Cela me semble logique alors pourquoi ne travaille pas? Le (?!a)
devrait correspondre à tout ce qui n'est pas une balise d'ancrage (pas que le "a" peut être n'importe quoi - c'est juste un exemple).Expression régulière correspondant aux balises HTML de fermeture
Édition: AGG! Je suppose que l'expression rationnelle n'a pas montré!
[utiliser HTML :: Parser || mourir] (http://stackoverflow.com/q/4231382/471272). :) – tchrist