Je cherche un moyen de détecter les jeux de caractères dans les documents. J'ai lu la mise en œuvre de détection de jeu de caractères Mozilla ici:Algorithme de détection de codage de caractères
J'ai aussi trouvé une implémentation Java de cette appelé jCharDet:
Ces deux sont basées sur recherche effectuée en utilisant un ensemble de données statiques. Ce que je me demande, c'est si quelqu'un a utilisé une autre implémentation avec succès et si oui, quoi? Avez-vous roulé votre propre approche et si oui quel était l'algorithme que vous avez utilisé pour détecter le jeu de caractères?
Toute aide serait appréciée. Je ne suis pas à la recherche d'une liste d'approches existantes via Google, et je ne suis à la recherche d'un lien vers l'article Joel Spolsky - juste pour préciser:)
MISE À JOUR: Je l'ai fait un tas de recherches sur cette question et a fini jusqu'à trouver un cadre appelé cpdetector qui utilise une approche connectable à la détection de caractères, voir:
Cette offre BOM, chardet (approche Mozilla) et plug-ins de détection ASCII. C'est aussi très facile d'écrire le vôtre. Il y a aussi un autre cadre, qui offre un bien meilleur détection de caractère que l'approche Mozilla/jchardet etc ...
Il est assez facile d'écrire votre propre plug-in pour cpdetector qui utilise ce cadre pour fournir un caractère plus précis algorithme de détection d'encodage. Cela fonctionne mieux que l'approche de Mozilla.
C'est un problème difficile. Merci pour les bons liens de votre propre recherche. – erickson
Il y a un cas célèbre de ceci: http://blogs.msdn.com/oldnewthing/archive/2007/04/17/2158334.aspx – McDowell
Yep, été sur le problème de bloc-notes, je réviserai mon poste avec ma recherche une fois que j'ai terminé et terminé, quelques trucs intéressants ... – Jon