2010-09-27 5 views
6

Je dois extraire le texte d'un fichier HTML en utilisant C#. J'essaie d'utiliser HTMLAgilityPack mais je vois des erreurs d'analyse (tags non fermés). J'utilise ces deux options:C# HTMLAgilityPack HTML au texte - Analyser les erreurs

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

est-il une option de type "Corriger tous". Je ne me soucie pas des erreurs, je veux juste le contenu ou fermer.

Répondre

4

Peut-être est solution, mais une fois que je devais extraire du texte HTML I utilisé regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Merci! Je cherchais une solution plus HTMLAgilityPack ... – tvr