2017-04-11 2 views
3

Le contenu d'un fichier est comme suivant, et l'encodage du fichier est utf-8:Chaîne lue octets de fichier dans python3

cd232704-a46f-3d9d-97f6-67edb897d65f b'this Friday, Gerda Scheuers will be excited \xe2\x80\x94 but she\xe2\x80\x99s most excited about the merchandise the movie will bring.' 

Voici mon code:

with open(file, 'r') as f_in: 
    for line in f_in: 
     tokens = line.split('\t') 
     print(tokens[1]) 

Je veux obtenir la bonne réponse - "ce vendredi, Gerda Scheuers sera excitée - mais elle est très excitée par les marchandises que le film apportera."

print(b'\xe2\x80\x94'.decode('utf-8')) #convert into ASCII 

Mais je ne peux pas lire les octets d'un fichier. Si j'ouvre un fichier avec des octets, j'ai besoin de décoder la ligne pour la découper.

Répondre

2

Vous pouvez utiliser ast.literal_eval pour convertir les octets littérales en octets:

Ensuite, le décoder pour obtenir objet chaîne:

>>> ast.literal_eval(r"b'excited \xe2\x80\x94 but she\xe2\x80\x99s'") 
b'excited \xe2\x80\x94 but she\xe2\x80\x99s' 
>>> ast.literal_eval(r"b'excited \xe2\x80\x94 but she\xe2\x80\x99s'").decode('utf-8') 
'excited — but she’s' 

with open(file, 'r') as f_in: 
    for line in f_in: 
     tokens = line.split('\t') 
     # if len(tokens) < 2: 
     # continue 
     bytes_part = ast.literal_eval(tokens[1]) 
     s = bytes_part.decode('utf-8') # Decode the bytes to convert to a string