2009-08-18 8 views
0

Je suis en train de faire un tas de traduction de texte codé html en utf-8 pour le mettre dans ma base de données. Il y a une tonne de caractères qui sont manqués à la fois avec html_entity_decode, ou iconv avec Translit.html_entity_decode caractères comme & Yuml vs & yuml

J'ai écrit une longue liste de caractères à effacer, mais maintenant je vois que & Yuml n'est pas traduit, mais & yuml est.

Je suis sûr qu'il y a d'autres symboles similaires qui manquent également.

Des conseils sur la meilleure façon de gérer ces incohérences? et assurez-vous que chaque caractère est correctement traduit?

Répondre

1

Tout ce qui est sous la forme & blah; est une référence d'entité en (X) HTML; Si vous avez besoin de vous assurer que vous les avez toutes, assurez-vous qu'aucune sortie UTF-8 finale ne contienne ce modèle. Vous trouverez également beaucoup sans le point-virgule à la fin (mais beaucoup de faux positifs là-bas).

Wikipédia, naturellement, a un list of HTML/XHTML/XML entity codes. Vous pouvez implémenter cette liste (longue) et voir si vous en trouvez d'autres dans la nature.

+0

merci derobert, J'espérais qu'il y avait un moyen de le faire sans passer par une liste si longue (en espérant que quelque chose existait déjà). On dirait que je vais faire le nettoyage pour cela et je posterai la fonction pour ceux qui en ont besoin à l'avenir. – pedalpete

Questions connexes