Mon usecase: Get pages HTML par jsoup et renvoie une w3c-DOM pour un traitement ultérieur par des transformations XML-:jsoup à w3c-document: INVALID_CHARACTER_ERR
...
org.jsoup.nodes.Document document = connection.get();
org.w3c.dom.Document dom = new W3CDom().fromJsoup(document);
...
fonctionne bien pour la plupart des documents, mais pour certains, il jette INVALID_CHARACTER_ERR sans indiquer où.
Il semble extrêmement difficile de trouver l'erreur. J'ai changé le code pour d'abord importer l'URL à une chaîne et ensuite rechercher les mauvais caractères par regexp. Mais cela n'aide pas pour les mauvais attributs (par exemple sans valeur) etc.
Ma solution actuelle est de minimiser le risque en supprimant les éléments par tag dans le document jsoup (head, img, script ...).
Existe-t-il une solution plus élégante?
Ne pas oublier de marquer votre réponse choisie comme acceptée pour fermer cette question. – Stephan