J'écris de petites applications qui analysent la source de quelques pages Web, extraient des données et les enregistrent dans un autre format. Plus précisément, certaines de mes banques ne fournissent pas de téléchargements de transactions/déclarations, mais elles fournissent un accès à ces déclarations sur leurs sites Web.Analyse d'un document XML/XHTML mais ignorant les erreurs dans C#
J'en ai fait un bien, mais un autre (HSBC UK) s'avère pénible dans le cul, puisque sa source n'est pas XHTML valide. Par exemple, il y a des espaces avant la balise <?xml?>
, et il y a des endroits où ==
est utilisé à la place de =
entre un nom d'attribut et sa valeur (par exemple <li class=="lastItem">
).
Bien sûr, quand je passe ces données dans mon XmlDocument
, il jette un wobbly (plus précisément une exception).
Ma question est: est-il possible d'assouplir les exigences pour l'analyse XML en C#? Je sais qu'il est préférable de régler ces problèmes à la source - c'est tout à fait mon attitude - mais il n'y a quasiment aucune chance pour HSBC de changer de site web qui fonctionne déjà dans la plupart des navigateurs juste pour moi.
+1. Si les imbéciles de HSBC servent un fichier qui n'est pas bien formaté pour les navigateurs comme text/html, c'est un fichier HTML hérité que vous devez analyser en utilisant un analyseur HTML, et pas du tout XHTML, même si ça ressemble superficiellement . – bobince