Lors de l'analyse de certains fichiers html avec libxml, la fonction xmlParseFile() renvoie que le code contient des caractères non UTF-8 Comment puis-je modifier le jeu de caractères par défaut de la bibliothèque en ISO-8859-1? Y a-t-il un autre moyen de résoudre ce problème? PS: L'ensemble du développement est basé sur libxml et fonctionne dans la plupart des cas, donc je ne peux pas passer à une autre bibliothèque.Problème avec le caractère libxml encombant sur win32
0
A
Répondre
1
Le codage utilisé pour les données XML doit être spécifié dans le prologue XML. Si aucun codage n'est spécifié, la spécification XML de W3 indique que UTF-8 doit être utilisé à la place. Pourquoi utilisez-vous un analyseur XML pour analyser les données HTML? libxml a un analyseur HTML séparé de son analyseur XML. Regardez htmlParseFile() et les fonctions connexes. Puisque HTML n'est pas XML, il n'y aurait pas de prologue XML pour indiquer le codage des données. HTML a une balise <meta>
disponible qui peut être utilisée à l'intérieur de la balise <head>
pour cela, cependant. L'analyseur HTML de libxml recherche cette balise pour déterminer l'encodage, si elle n'est pas transmise explicitement à htmlParseFile() directement.
Questions connexes
- 1. C# DataTable.Select: problème avec le caractère '-'
- 2. Problème avec namespace et libxml lorsque j'utilise Xpath
- 3. problème rand VS() avec pthread-win32
- 4. Ruby: Impossible d'enregistrer le document avec Libxml-ruby
- 5. Weird sifr caractère problème
- 6. Perl, LibXML et Schémas
- 7. Problème de transmission du caractère nul sur les sockets
- 8. Comment imprimer le caractère '%' avec 'printf'?
- 9. Dessin sur le fond d'écran (WIN32)
- 10. Python Win32 - DriveInfo sur le lecteur mappé
- 11. caractère d'échappement lot Odd problème
- 12. Effacer les espaces de noms indésirables avec LibXML-Ruby
- 13. Problème avec le cadre capturé sur libdc1394
- 14. Problème avec le lien IE7 sur jquery
- 15. Est-il possible d'utiliser libxml avec unicode xmlchar?
- 16. mysqldb sur python 2.6+ (win32)
- 17. Impossible d'installer le module XML :: LibXML sous Windows
- 18. Utiliser GNU gettext sur Win32
- 19. iText - problème avec le caractère de saut de ligne remplacé par?
- 20. wpf listview cliquez avec le bouton droit sur le problème
- 21. le caractère suivant a une énorme influence sur xmlparser?
- 22. IMAP Recherche avec « caractère
- 23. Lecture et vérification de caractère Problème
- 24. mysql problème d'encodage de caractère spécial
- 25. problème avec le dojo
- 26. Problème avec le scrapbook
- 27. Problème avec UIActivityIndicatorView sur l'iPhone
- 28. Problème avec jquery.ui.autocomplete.js sur IE7
- 29. problème avec% LLD sur Windows
- 30. Win32 chevauché Readfile sur COM Port ERROR_OPERATION_ABORTED
Je ne suis pas sûr de comprendre. Vous obtenez des caractères non-UTF-8, donc vous voulez passer à un jeu de caractères plus restrictif (8859)? Comment cela va-t-il aider? – ars