2011-01-18 2 views
2

Je suis sûr que cette question a demandé avant et j'ai regardé avant que je ne peux pas trouver la réponse, ou peut-être que je fais juste quelque chose de mal.HTMLAgilityPack dépouillant html

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
       doc.LoadHtml(indivdualfix[0]);    
       HtmlWeb hwObject = new HtmlWeb(); 
       HtmlAgilityPack.HtmlDocument htmldocObject = hwObject.Load(indivdualfix[0]); 
       HtmlNode body = htmldocObject.DocumentNode.SelectSingleNode("//body"); 
       body.Attributes.Remove("style"); 
       foreach (var a in body.Attributes.ToArray()) 
        a.Remove(); 
       string bodywork = body.InnerHtml.ToString(); 

Le corps de chaîne renvoie toujours tout le codage html. Je pourrais manquer quelque chose de vraiment petit ici. Ce qui doit être fait pour supprimer tout le codage html essentiellement.

Répondre

3

utilisation body.InnerText pas body.InnerHtml

+0

+1 pour le sens commun juste, tester maintenant. –

Questions connexes