2017-10-16 4 views
0

J'ai juste essayéPourquoi Dask ne lit pas le fichier CSV?

import dask.dataframe as dd 
df = dd.read_csv("data.csv") 
print(df.describe()) 

qui donne

Dask DataFrame Structure: 
       SOME_COL FOO   BAR 
npartitions=1     float64  float64  float64 
       ...   ...   ... 
Dask Name: describe, 1234 tasks 

Il y a deux problèmes:

  1. Je ne pense pas que quoi que ce soit a été fait comme cela est un fichier CSV et de 4 Go ainsi devrait prendre au moins quelques secondes pour lire, mais l'impression se produit immédiatement.
  2. Je m'attendais à obtenir les valeurs min, 25%, médiane, 75% et max, mais aucune de ces valeurs descriptives n'est affichée.

Quel est le problème?

Répondre

1

Dask.dataframe est paresseux par défaut. Vous devez appeler .compute() lorsque vous voulez une vraie réponse.