J'utilise les méthodes parseBodyFragment()
et parse()
de Jsoup pour travailler avec des blocs de code composés de script, de noscript et de balises de style. L'objectif n'est pas de les nettoyer - juste pour select()
, analyser, et les sortir. La partie select()
fonctionne très bien. Cependant, le problème est qu'il code automatiquement les paramètres url des attributs src. Ainsi, lorsque l'entrée est la suivante:Comment arrêter Jsoup d'encoder les paramètres d'URL?
<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>
Je finis avec cela, est revenu de Jsoup, via la méthode outerHTML()
:
<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>
La question étant l'esperluette standard (&) dans le paramètre url est en cours de codage et sort en tant que &
. Y at-il un moyen de désactiver cela?
Je cherche un moyen d'obtenir le html de l'élément sélectionné sans modification. Merci!
Mise à jour (23/02/2016): Problème clarifié. En outre, trouvé un problème sur le rapport Github décrivant le problème: https://github.com/jhy/jsoup/issues/372. On dirait que cela pourrait ne pas être possible.
vous pouvez obtenir pagedocument en utilisant parse et plus tard obtenir le contenu en utilisant select. – thanga
@thanga merci - j'aurais dû être plus clair; Je suis capable de l'utiliser avec select - le problème est après que je l'ai eu. Il semble que Jsoup modifie le HTML sans un moyen d'obtenir le code original. J'ai trouvé un problème sur le rapport Github le décrivant aussi, donc je pense que ce ne serait peut-être pas possible. Je vais mettre à jour la question pour inclure un lien vers le problème. –