Obtention du code HTML nettoyé dans le texte de HtmlCleaner

Je souhaite voir le code HTML nettoyé que nous obtenons de HTMLCleaner. Je vois qu'il existe une méthode appelée serialize sur TagNode, mais je ne sais pas comment l'utiliser. Est-ce que quelqu'un a un code d'échantillon pour cela?Obtention du code HTML nettoyé dans le texte de HtmlCleaner

Merci Nayn

Source

2011-08-25 Nayn

Voici l'exemple de code:

HtmlCleaner htmlCleaner = new HtmlCleaner(); 

TagNode root = htmlCleaner.clean(url); 

HtmlCleaner.getInnerHtml(root); 

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

Source

2012-07-29 09:48:07

Utilisez une sous-classe de org.htmlcleaner.XmlSerializer, par exemple:

// get the element you want to serialize 
HtmlCleaner cleaner  = new HtmlCleaner(); 
TagNode  rootTagNode = cleaner.clean(url); 

// set up properties for the serializer (optional, see online docs) 
CleanerProperties cleanerProperties = cleaner.getProperties(); 
cleanerProperties.setOmitXmlDeclaration(true); 

// use the getAsString method on an XmlSerializer class 
XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties); 
String  html   = xmlSerializer.getAsString(rootTagNode);

Source

2013-05-06 17:47:54 luiss

En fait, cette réponse doit être acceptée réponse . Cette méthode donne le HTML complet sans injection manuelle du noeud racine. – mmdemirbas

XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties); 

String html = xmlSerializer.getAsString(rootTagNode);

la méthode ci-dessus a un problème, il va couper le contenu dans l'étiquette html, par exemple,

c'est le paragraphe 1.

will become

c'est paragraphe 1.

et il est getSingleLineOfChildren fonction effectue l'opération de rognage. Donc, si nous récupérons des données à partir du site Web et que nous voulons conserver le format tel que caché.

PS: si une étiquette HTML sur l'étiquette pour les enfants, l'étiquette mère contetn ne sera pas trimed,

par exemple <p> this is paragraph1. <a>www.xxxxx.com</a> </p> gardera les espaces avant « est paragraphe 1 »

Source

2018-02-13 09:38:01

Obtention du code HTML nettoyé dans le texte de HtmlCleaner

Répondre

Questions connexes