2010-08-14 8 views
1

Je télécharge du code HTML à partir d'un site Web. Le fichier peut être assez volumineux, alors que le téléchargement du fichier, je veux déjà analyser les morceaux disponibles de HTML afin que le processus apparaisse plus rapidement pour l'utilisateur final de mon programme. Je n'ai pas de contrôle sur la façon dont les cunk sont générés, donc un morceau peut commencer au milieu d'un mot, par ex. comme ceci:libxml2 Analyse de bloc HTML

chunk 1 ---> <div class="storyti 
chunk 2 ---> tle"><a href="htt 
chunk 3 ---> p://www.xkcd.com/">XKCD</a> 
...and so on. 

Je l'ai vu par exemple où libxml2 a été utilisé pour analyser des morceaux XML exactement comment je l'ai décrit. Est-ce que libxml2 peut aussi analyser des morceaux HTML? J'ai vérifié avec ordre sur les fichiers html que je vais télécharger, il signale des avertissements mais pas d'erreurs. Est-ce que libxml2 peut aussi analyser ces morceaux HTML?

Répondre

0

Si le contenu est XHTML, vous pouvez utiliser libxml2 pour l'analyser (puisqu'il s'agit en fait de XML). Par contre, si c'est du HTML normal, il faudrait utiliser un analyseur SGML.

+0

Il est dit que c'est ' –

+0

Un analyseur XML devrait suffire dans ce cas. En supposant que c'est réellement * valide * XHTML. – You

0

Eh bien, il semble que ce n'est pas valide XHTML. Y at-il peut-être un moyen de ranger les morceaux HTML?

1

libxml2 a un analyseur html qui prend en charge le format html mal formé. Veuillez vérifier le link ici.