libxml2 Analyse de bloc HTML

2010-08-14 8 views 1 likes

Je télécharge du code HTML à partir d'un site Web. Le fichier peut être assez volumineux, alors que le téléchargement du fichier, je veux déjà analyser les morceaux disponibles de HTML afin que le processus apparaisse plus rapidement pour l'utilisateur final de mon programme. Je n'ai pas de contrôle sur la façon dont les cunk sont générés, donc un morceau peut commencer au milieu d'un mot, par ex. comme ceci:libxml2 Analyse de bloc HTML

chunk 1 ---> <div class="storyti 
chunk 2 ---> tle"><a href="htt 
chunk 3 ---> p://www.xkcd.com/">XKCD</a> 
...and so on.

Je l'ai vu par exemple où libxml2 a été utilisé pour analyser des morceaux XML exactement comment je l'ai décrit. Est-ce que libxml2 peut aussi analyser des morceaux HTML? J'ai vérifié avec ordre sur les fichiers html que je vais télécharger, il signale des avertissements mais pas d'erreurs. Est-ce que libxml2 peut aussi analyser ces morceaux HTML?

Source

2010-08-14 Mark Payton

Répondre

Si le contenu est XHTML, vous pouvez utiliser libxml2 pour l'analyser (puisqu'il s'agit en fait de XML). Par contre, si c'est du HTML normal, il faudrait utiliser un analyseur SGML.

Source

2010-08-14 14:43:22 You

Il est dit que c'est ' –

Un analyseur XML devrait suffire dans ce cas. En supposant que c'est réellement * valide * XHTML. – You