J'ai plus de 1 million de lignes, et il y a un très long champ de texte qui déséquilibre certaines lignes. Cela provoque certaines lignes d'avoir plus de colonnes que mon en-tête. J'ai corrigé ceci avec:Lire des csv avec des pandas - gérer des lignes déséquilibrées
read_csv('filename.csv', error_bad_lines=False)
Le problème ici est qu'il semble qu'il y ait quelques rangées avec moins de colonnes que mon en-tête. Ceci est un problème (certains champs changent).
Comment puis-je résoudre ce problème? Existe-t-il un moyen (je blâme ce long champ de texte) d'agir comme un seul domaine?
modifier après commentaire
Délimiteur de champ est une virgule. Lorsque je cours df.dtypes
tous les champs, sauf un semble être objet, mais j'ai à l'origine des champs int, et datetime, lus comme des objets par les pandas.
modifier après commentaire 2
ici est en-tête pour ce que j'ai .csv id (int), textField (string), ID2 (char), le score (int), le type (string) , length (int), nom (chaîne), datetime (datetime), taille (int), email (chaîne)
Le principal problème est la zone textField. les autres ne peuvent pas avoir de charactères pour fuir la syntaxe csv. Cependant textField est créé par les utilisateurs, il peut être n'importe quoi dans unicode; emojis, caractères non anglais drôle citation etc.
sont vos champs délimités et si oui, quel est le format? – EdChum
réf. Mise à jour question –
Veuillez montrer un petit échantillon de vos données illustrant le problème. – BrenBarn