J'ai une chaîne qui peut inclure des balises br ou span .../span ou d'autres caractères/entités HTML. Je veux un moyen robuste de dépouiller tout cela et d'obtenir les caractères UTF-8 restants. Cela devrait être multi-plateforme, idéalement.C++: Supprimer tout le formatage HTML de la chaîne?
Quelque chose comme ça serait idéal:
http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/
mais supprime également les balises. Voulez-vous simplement supprimer les éléments ou convertir le HTML en texte brut?
A noter, plusieurs états sont nécessaires, car les attributs peuvent contenir ">". – strager
C'est vrai, c'est pourquoi j'ai demandé à quel point ses exigences sont strictes. Un '>' dans une étiquette est assez improbable mais cela pourrait certainement arriver. Similairement, l'algorithme devra être plus complexe si vous devez traiter avec du HTML potentiellement mal formé ou prendre des mesures spéciales pour certains tags. –
Le PO dit «robuste», ce qui signifie probablement «fonctionne comme un humain, en supposant qu'il comprenne parfaitement la norme dans tous les cas». Donc ">" dans un attribut devrait probablement être manipulé. – strager