2009-02-10 3 views
2

J'utilise Xpath (et java) pour extraire des informations de certains sites Web. Cependant, mon problème est que certains de ces sites n'étant pas bien formés, je ne peux pas les traiter. Existe-t-il un moyen d'éviter la vérification de la bonne forme ou de spécifier des étiquettes qui ne doivent pas être vérifiées pour leur bonne forme?comment ignorer la vérification du bon formatage XML

Merci Rp

Répondre

5

Prétraitez avec Tidy.

+0

Il y a en fait un port Java: http://sourceforge.net/projects/jtidy –

1

Vous ne souhaitez probablement pas utiliser un analyseur XML pour analyser le code HTML. Vous feriez mieux d'utiliser une bibliothèque telle que HtmlUnit ou HtmlParser.

2

TagSoup est un analyseur compatible SAX écrit en Java qui peut gérer tout type de code HTML défectueux. Essayez d'utiliser TagSoup en tant qu'analyseur XML, puis traitez la sortie via Xpath.

Questions connexes