2017-05-01 2 views
0

Le problème est très étrange.Impossible de sparer ou pickle DataFrame (kernel crash)

Je crée une matrice de pandas géants comme ceci:

Mon index est un 4 les niveaux. df = pd.Dataframe (np.zeros ((300 000 300 000)), index = index, colonnes = index)

La matrice est construite avec succès lorsque j'utilise np.zeros (sans mon crash de noyau) mais il est impossible de le décaper ou de l'éparpiller. Python dépense près de 60 Go de mémoire sur mon mac avec 8 Go de RAM. J'ai également essayé d'utiliser un cluster avec plus de 60 Go de RAM. Pourquoi une matrice si simple est impossible à gérer. Est-ce que je fais quelque chose de mal?

+0

Le problème est beaucoup plus à créer une matrice creuse directement pour éviter de charger 80 Go (ou plus) lorsque ma matrice est presque pleine de 0. – Cyril

Répondre