H5PY - Comment stocker de nombreux tableaux 2D de différentes dimensions

Je voudrais organiser mes données collectées (à partir de simulations informatiques) dans un fichier hdf5 en utilisant Python. J'ai mesuré les positions et les vitesses [x, y, z, vx, vy, vz] de tous les atomes dans une certaine région de l'espace sur plusieurs pas de temps. Le nombre d'atomes, bien sûr, varie d'un pas de temps à l'autre.H5PY - Comment stocker de nombreux tableaux 2D de différentes dimensions

Un exemple minimal pourrait se présenter comme suit:

[ 
[ [x1,y1,z1,vx1,vy1,vz1], [x2,y2,z2,vx2,vy2,vz2] ], 
[ [x1,y1,z1,vx1,vy1,vz1], [x2,y2,z2,vx2,vy2,vz2], [x3,y3,z3,vx3,vy3,vz3] ] 
]

(2 pas de temps, première fois étape: 2 atomes, seconde étape de temps: 3 atomes)

Mon idée était de créer un Jeu de données hdf5 dans Python qui stocke toutes les informations. A chaque pas de temps, il devrait enregistrer un tableau 2d de positions/ELCA vitesses de tous les atomes, à savoir

dataset[0] = [ [x1,y1,z1,vx1,vy1,vz1], [x2,y2,z2,vx2,vy2,vz2] ] 
dataset[1] = [ [x1,y1,z1,vx1,vy1,vz1], [x2,y2,z2,vx2,vy2,vz2], [x3,y3,z3,vx3,vy3,vz3] ].

L'idée est claire, je pense. Cependant, je lutte avec la définition du type de données correct de l'ensemble de données avec la longueur variable de tableau.

Mon code ressemble à ceci:

import numpy as np 
import h5py 

file = h5py.File ('file.h5','w') 

columnNo = 6  
rowtype = np.dtype("%sfloat32" % columnNo) 
dt = h5py.special_dtype(vlen=np.dtype(rowtype)) 

dataset = file.create_dataset("dset", (2,), dtype=dt) 

print dataset.value 

testarray = np.array([[1.,2.,3.,2.,3.,4.],[1.,2.,3.,2.,3.,4.]]) 
print testarray 

dataset[0] = testarray 
print dataset[0]

Ceci, cependant, ne fonctionne pas. Quand j'exécute le script, j'obtiens le message d'erreur "AttributeError: l'objet 'float' n'a pas d'attribut 'dtype'." Il semble que mon type défini dtype est faux.

Est-ce que quelqu'un voit comment il devrait être défini correctement?

Merci beaucoup, Sven

Source

2017-01-04 Svennard

L'erreur dans votre cas est enterré, mais il est clair qu'il se produit lorsque vous essayez d'assigner le testarray au dataset:

Traceback (most recent call last): 
    File "stack41465480.py", line 26, in <module> 
    dataset[0] = testarray 
    File "h5py/_objects.pyx", line 54, in h5py._objects.with_phil.wrapper (/build/h5py-GhwtGD/h5py-2.6.0/h5py/_objects.c:2577) 
... 
    File "h5py/_conv.pyx", line 712, in h5py._conv.ndarray2vlen (/build/h5py-GhwtGD/h5py-2.6.0/h5py/_conv.c:6171) 
AttributeError: 'float' object has no attribute 'dtype'

Je ne suis pas qualifié avec le special_dtype et vlen, mais j'ai été en mesure d'écrire un numpy tableaux structurés à h5py.

import numpy as np 
import h5py 

file = h5py.File ('file.h5','w') 

columnNo = 6  
# rowtype = np.dtype("%sfloat32" % columnNo) 
rowtype = np.dtype([('f0', '<f4',(6,))]) 
dt = h5py.special_dtype(vlen=np.dtype(rowtype)) 

print('rowtype',rowtype) 
print('dt',dt) 
dataset = file.create_dataset("dset", (2,), dtype=rowtype) 

print('value') 
print(dataset.value[0]) 

arr = np.ones((2,),dtype=rowtype) 
print(repr(arr)) 
dataset[0] = arr[0] 
print(dataset.value) 

testarray = np.array([([1.,2.,3.,2.,3.,4.],),([2.,3.,4.,1.,2.,3.],)], dtype=rowtype) 
print(repr(testarray)) 

dataset[1] = testarray[1] 
print(dataset.value) 
print(dataset.value['f0'])

production

1316:~/mypy$ python3 stack41465480.py 
rowtype [('f0', '<f4', (6,))] 
dt object 
value 
([0.0, 0.0, 0.0, 0.0, 0.0, 0.0],) 
array([([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],), ([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],)], 
     dtype=[('f0', '<f4', (6,))]) 
[([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],) ([0.0, 0.0, 0.0, 0.0, 0.0, 0.0],)] 
array([([1.0, 2.0, 3.0, 2.0, 3.0, 4.0],), ([2.0, 3.0, 4.0, 1.0, 2.0, 3.0],)], 
     dtype=[('f0', '<f4', (6,))]) 
[([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],) ([2.0, 3.0, 4.0, 1.0, 2.0, 3.0],)] 
[[ 1. 1. 1. 1. 1. 1.] 
[ 2. 3. 4. 1. 2. 3.]]

Source

2017-01-04 21:22:12 hpaulj

Merci pour la réponse rapide. Ça a beaucoup aidé.

Si je maintenant simplement changer le type de données de l'ensemble de données à

dtype = dt,

je reçois ce que je voudrais avoir.

Ici, le code Python (pour être complet):

import numpy as np 
import h5py 

file = h5py.File ('file.h5','w') 

columnNo = 6 

rowtype = np.dtype([('f0', '<f4',(6,))]) 
dt = h5py.special_dtype(vlen=np.dtype(rowtype)) 

print('rowtype',rowtype) 
print('dt',dt) 
dataset = file.create_dataset("dset", (2,), dtype=dt) 

# print('value') 
# print(dataset.value[0]) 

arr = np.ones((3,),dtype=rowtype) 
# print(repr(arr)) 
dataset[0] = arr 
# print(dataset.value) 

testarray = np.array([([1.,2.,3.,2.,3.,4.],),([2.,3.,4.,1.,2.,3.],)], dtype=rowtype) 
# print(repr(testarray)) 

dataset[1] = testarray 
print(dataset.value) 
for i in range(2): print dataset[i]

Et à la sortie correspondante lit

('rowtype', dtype([('f0', '<f4', (6,))])) 
('dt', dtype('O')) 
[ array([([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],), 
     ([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],), ([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],)], 
     dtype=[('f0', '<f4', (6,))]) 
array([([1.0, 2.0, 3.0, 2.0, 3.0, 4.0],), ([2.0, 3.0, 4.0, 1.0, 2.0, 3.0],)], 
     dtype=[('f0', '<f4', (6,))])] 
[([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],) ([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],) 
([1.0, 1.0, 1.0, 1.0, 1.0, 1.0],)] 
[([1.0, 2.0, 3.0, 2.0, 3.0, 4.0],) ([2.0, 3.0, 4.0, 1.0, 2.0, 3.0],)]

Juste pour y arriver: Le problème dans mon code d'origine était une mauvaise définition ma structure de données rowtype, non?

Best, Sven

Source

2017-01-05 11:24:29 Svennard

H5PY - Comment stocker de nombreux tableaux 2D de différentes dimensions

Répondre

Questions connexes