Communauté Hello StackOverflow. Je suis un utilisateur assez récent de Python, donc désolé d'avance pour l'absurdité de cette question! Mais j'ai essayé de le réparer pendant des heures mais je ne l'ai toujours pas compris. J'essaie d'importer un grand ensemble de données pour le manipuler en Python.Problème sur les données codées Unicode en Python
Cet ensemble de données est en .csv et j'ai eu des problèmes pour le lire en raison de problèmes d'encodage.
J'ai essayé de le coder dans le texte UTF-8 avec notepad ++ J'ai essayé le module csv.reader en Python
Voici un exemple de mon code:
import csv
with open('twitter_test_python.csv') as csvfile:
#for file5 in csvfile:
# file5.readline()
#csvfile = csvfile.encode('utf-8')
spamreader = csv.reader(csvfile, delimiter=str(','), quotechar=str('|')
for row in spamreader:
row = " ".join(row)
row2= str.split(row)
listsw = []
for mots in row2:
if mots not in sw:
del mots
print row2
Mais quand je Importer mes données en Python J'ai toujours des problèmes d'encodage (accents, etc) que j'utilise.
Comment puis-je coder mes données pour qu'elles soient lisibles correctement avec Python?
Merci!
* J'ai toujours des problèmes d'encodage * signifie exactement rien! Dites ce qui se passe exactement et ce qui est attendu. –
Voici un exemple d'une liste de mes données: ["En vrai j'en ai marre j'ai une poste \ xe0 3min de chez moi et le postier il xc9cide de mettre mon colis dans une poste que je connais pas "]. –
Je veux avoir ceci: [En vrai j'en ai marre j'ai posté à 3min de chez moi et le postier il a décidé de mettre mon colis dans une poste que je connais pas] –