J'ai écrit des codes Python pour obtenir des emails du serveur Gmail. Voici le code ci-dessous:Python parse Email chinois décodage Erreur
self.M = imaplib.IMAP4_SSL(self.IMAP_SERVER, self.IMAP_PORT)
data = self.M.fetch(id,"(RFC822)")
if data[0] == 'OK':
msg = email.message_from_string(data[1][0][1])
else:
print 'Error!'
mail_subject = email.Header.decode_header(msg['subject'])[0][0]
print email.Header.decode_header(msg['subject'])
print '~~~separator~~~'
print mail_subject
sujet anglais mails affiché correctement:
[('[bonnshore.github.com] Page build successful', None)]
~~~separator~~~
[bonnshore.github.com] Page build successful
mais après le chinois au lieu:
[('\xd5\xe2\xca\xc7\xd6\xd0\xce\xc4\xb2\xe2\xca\xd4\xa3\xa1', 'gb2312')]
~~~separator~~~
╒Γ╩╟╓╨╬─▓Γ╩╘úí
Fonction isinstance() a montré le type de caractère est « str ', J'ai donc essayé cela pour le résoudre:
print unicode(mail_subject, 'gb2312')
et se produit une erreur:
File "C:\Python27\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-6:
character maps to <undefined>
J'ai aussi tryed pour décoder le caractère directement:
print mail_subject.decode("gb2312")
et je me suis à nouveau la même erreur!
Alors, Comment résoudre ce problème?
Merci beaucoup! :)
Etes-vous sûr que les données sont effectivement codées dans 'gb2312'?Il y a une raison pour laquelle decode_header retourne un tuple incluant l'encodage réellement utilisé;) – Voo