Oui, je sais que généralement une mauvaise idée pour analyser HTML utilisant l'expression rationnelle, mais à part quelqu'un peut-il expliquer la faute ici:Quel est le problème avec mon regex
string outputString = Regex.Replace(inputString, @"<?(?i:script|embed|object|frameset|frame|iframe|metalink|style|html|img|layer|ilayer|meta|applet)(.|\n)*?>", "");
if (outputString != inputString)
{
Console.WriteLine("unwanted tags detected");
}
Il détecte certainement les balises prévues comme: <script>
et <html>
, mais il rejette aussi les chaînes que je veux permettre, comme <B>Description</B>
et <A href="http://www.mylink.com/index.html">A Link containing 'HTML'</A>
facile: vous analysez html avec une expression régulière (RNCS) – soulmerge
Peut-être que je me pose la mauvaise question. Comment détecteriez-vous les balises indésirables dans l'entrée html? –