Je télécharge du code HTML à partir d'un site Web. Le fichier peut être assez volumineux, alors que le téléchargement du fichier, je veux déjà analyser les morceaux disponibles de HTML afin que le processus apparaisse plus rapidement pour l'utilisateur final de mon programme. Je n'ai pas de contrôle sur la façon dont les cunk sont générés, donc un morceau peut commencer au milieu d'un mot, par ex. comme ceci:libxml2 Analyse de bloc HTML
chunk 1 ---> <div class="storyti
chunk 2 ---> tle"><a href="htt
chunk 3 ---> p://www.xkcd.com/">XKCD</a>
...and so on.
Je l'ai vu par exemple où libxml2 a été utilisé pour analyser des morceaux XML exactement comment je l'ai décrit. Est-ce que libxml2 peut aussi analyser des morceaux HTML? J'ai vérifié avec ordre sur les fichiers html que je vais télécharger, il signale des avertissements mais pas d'erreurs. Est-ce que libxml2 peut aussi analyser ces morceaux HTML?
Il est dit que c'est ' –
Un analyseur XML devrait suffire dans ce cas. En supposant que c'est réellement * valide * XHTML. – You