C# HTMLAgilityPack HTML au texte - Analyser les erreurs

Je dois extraire le texte d'un fichier HTML en utilisant C#. J'essaie d'utiliser HTMLAgilityPack mais je vois des erreurs d'analyse (tags non fermés). J'utilise ces deux options:C# HTMLAgilityPack HTML au texte - Analyser les erreurs

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

est-il une option de type "Corriger tous". Je ne me soucie pas des erreurs, je veux juste le contenu ou fermer.

Source

2010-09-27 tvr

Peut-être est solution, mais une fois que je devais extraire du texte HTML I utilisé regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

Source

2010-09-27 09:42:21 Ichibann

Merci! Je cherchais une solution plus HTMLAgilityPack ... – tvr

C# HTMLAgilityPack HTML au texte - Analyser les erreurs

Répondre

Questions connexes