Je dois extraire le texte d'un Html très mauvais.InnerText = InnerHtml - Comment extraire le texte lisible avec HtmlAgilityPack
Je suis en train de le faire en utilisant vb.net
et HtmlAgilityPack
L'étiquette que je dois analyser a InnerText = InnerHtml et les deux:
Name:<!--b>=</b--> Albert E<!--span-->instein s<!--i>Y</i-->ection: 3 room: -
Alors que debug je peux le lire en utilisant « spectateur Html ": il montre:
Name: Albert Einstein section: 3 room: -
Comment est-ce que je peux obtenir ceci dans une variable de chaîne?
EDIT:
J'utiliser ce code pour obtenir le nœud:
Dim ElePs As HtmlNodeCollection = _
mWPage.DocumentNode.SelectNodes("//div[@id='div_main']//p")
For Each EleP As HtmlNode In ElePs
'Here I need to get EleP.InnerText "normalized"
Next
pouvez-vous essayé cela? http://stackoverflow.com/questions/3442394/jquery-using-text-to-retrieve-only-text-not-nested-in-child-tags Je ne sais pas si cela fonctionne sur mauvais html ... essayez –
Vous devez poster plus de html je pense - il ne semble pas si mauvais sur le visage de celui-ci –
@ Mr.Developer Pouvez-vous expliquer un peu plus? J'ai compris la logique mais j'ai besoin de plus d'hel pour l'essayer. Merci d'avance – genespos