Je ne sais pas exactement comment poser cette question, et je ne suis pas très proche de trouver une réponse, alors j'espère que quelqu'un pourra m'aider.Traiter une chaîne contenant plusieurs encodages de caractères
J'écris une application Python qui se connecte à un hôte distant et reçoit des données d'octets arrières, que je décompresse en utilisant le module struct intégré de Python. Mon problème est avec les chaînes, car elles incluent plusieurs encodages de caractères. Voici un exemple d'une telle chaîne:
«^lCet est un exemple^GString avec plusieurs^encodages Jcharacter »
Lorsque les différents encodage commence et se termine est marquée en utilisant les caractères d'échappement spéciaux:
- ^L - Latin1
- ^E - Europe centrale
- ^T - turc
- ^B - Baltique
- ^J - Japonais
- ^C - cyrillique
- ^G - grec
Et ainsi de suite ... je besoin d'un moyen de convertir ce genre de chaîne en Unicode, mais je ne suis vraiment pas sûr comment le faire. J'ai lu sur les codecs de Python et string.encode/decode, mais je ne suis pas le plus sage. Je devrais mentionner aussi, que je n'ai aucun contrôle sur la façon dont les chaînes sont produites par l'hôte.
J'espère que quelqu'un peut m'aider avec la façon de commencer à ce sujet.
Votre analyseur lance-t-il une erreur ou vous reste-t-il avec une chaîne Python valide, mais avec des encodages inutilisables? Si oui, les choses peuvent être réparées. Fournir un exemple de chaîne, s'il vous plaît. – DzinX
Je veux dire autre exemple que ci-dessus, car l'exemple ci-dessus n'a que des caractères ASCII. – DzinX