2011-06-27 2 views
0

Je recherche un bon format de stockage pour les grands ensembles de données maillés. L'application est la météorologie, et nous préférerions un format commun dans ce domaine (pour aider à échanger des données avec d'autres). Je n'ai pas besoin de traiter des structures de données spéciales, et il devrait y avoir une API Fortran. Je considère actuellement HDF5, GRIB2 et NetCDF4.Stockage pour les grands ensembles de données maillés

Comment ces formats se comparent-ils en termes de compression de données? Quelles sont leurs principales limites? Quelle est la pente de la courbe d'apprentissage? Existe-t-il d'autres formats de stockage qui méritent d'être étudiés?

Je n'ai pas trouvé beaucoup de matériel décrivant les différences et les avantages/inconvénients de ces formats (il ya un pertinent SO thread, et a presentation comparant GRIB et NetCDF).

+0

Il y a un wrapper Fortran agréable pour HDF5 appelé FUTILS - ce qui simplifie l'écriture beaucoup de fichiers HDF5, au détriment de pouvoir utiliser parallèle HDF5 IO. – Chris

Répondre

3

Désolé, je ne suis pas en météorologie, mais il me semble que la communauté scientifique se dirige vers HDF5, voir par exemple la page NERSC:

http://www.nersc.gov/users/training/online-tutorials/introduction-to-scientific-i-o/

je devais prendre le même choix pour astrophysique, comme nous utilisons historiquement FITS, et j'ai trouvé assez facile de commencer à utiliser HDF5, car il y a des API non seulement fortran et C mais aussi C++, et aussi un paquetage python (h5py).

3

Je considérerais certainement HDF5 comme il semble être la tendance dans la communauté scientifique.

En outre, HDF5 a des filtres intégrés (y compris les filtres de compression) ou vous pouvez également écrire les vôtres. Enfin, jetez un coup d'œil sur les jeux de données HDF5 «groupés», car ils peuvent s'avérer très utiles si vous avez des jeux de données maillés.

http://www.hdfgroup.org/

Questions connexes