2017-08-30 2 views
0

Je suis nouveau pour les pandas. J'ai chargé csv en utilisant pandas.read_csv. J'ai essayé de ne pas spécifier dtype mais c'était trop lent. Comme c'est un très gros fichier, j'ai aussi spécifié le type de données. cependant, parfois dans des colonnes numériques, il contient "NA". J'ai utilisé na_values ​​= ['NA'], cela affecte-t-il mon cadre de données? je veux toujours préserver ces rangées. ma question est si je spécifie le type de données et ajoute na_values ​​= ['NA'], NA sera jeté loin? Si oui, comment puis-je maintenir un temps de traitement similaire sans perdre ces na? Merci beaucoup!Analyser les entrées "NA" comme des valeurs NaN lors de la lecture dans une trame de données pandas

+0

'NA' sera analysé en' NaN' ('np.nan') lorsque votre jeu de données est chargé. –

+1

Vous n'avez pas pu le tester vous-même? –

+0

J'ai fait un chèque isnull plus tard et je n'ai pas trouvé. donc j'étais confus. Je vais tester à nouveau. – user3062229

Répondre

2

Des docs:

na_values: scalaire, str, list -comme ou dict, par défaut None

chaînes supplémentaires à reconnaître comme NA/NaN. Si dict est passé, des valeurs spécifiques NA par colonne. Par défaut, les valeurs suivantes sont interprétées comme NaN: '', ... 'NA', ... `.

Gras emphase mien. Ces valeurs ne sont pas jetées, elles sont plutôt converties en NaN. Pandas est assez intelligent pour reconnaître automatiquement ces valeurs sans que vous l'énoncez explicitement.